feedback

意见

反馈

back-to-up

回到

顶部

这才是数据人才的黄金时代 | 数据科学50人·单艺

数据科学50人

· 单艺

程一祥   03-30

如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、顶尖从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的数据科学领域的顶尖专家,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。数据科学如今像一个科技圈的“万人迷”,它仿佛有着某种引力,吸引着各界人才、资本和新闻的头条。你是想当看客,还是也想入场?DT君专访猎聘网首席数据数据官单艺,带你了解数据科学的人才市场。

数据的风,吹起来了

1999年的美国硅谷,互联网行业正一片欣欣向荣的景象。

几年前,Mosaic网页浏览器(DT君注:Mosaic是最早的网页浏览器之一,支持多种互联网协议,是微软Internet Explorer浏览器的前身。)的出现正式掀起了美国互联网的热潮。建立一个公开的网站,迅速成为上市公司们的必选动作。突然间,大家开始意识到:互联网这种高效、双向、即时性的通讯模式正在变革原有的商业社会。

广告、销售、制造等各行各业的人们,开始涌入互联网这个新兴行业。一时间,各路科技公司遍地开花,股票市场上的科技股涨势凶猛,并在日后酝酿了一场“互联网泡沫”。

对于当时很多在学校读计算机科学的学生们来说,那是他们投身这场科技革命的原点——因为当时在硅谷,到处都是工作机会。

(图片说明:旧金山的硅谷路标。作为互联网科技的“革命圣地”,硅谷聚集了全球最优秀的科技公司和人才。虽然2000年的互联网经历了一波泡沫经济的破裂,但是包括互联网基建、互联网工具、还有门户网站等在内的科技行业却也因此而得益,最终发展了起来;图片来源:视觉中国)

如今,猎聘网的首席数据科学家单艺,就是在那个时候加入到了互联网的大潮。

当时单艺刚来到美国,正在亚利桑那大学攻读信息管理系统的博士学位。“比起科研,我感觉自己对解决业界的实际问题更感兴趣”,单艺说当时美国热烈的科技氛围,让他最终决定提前离开象牙塔。

告别了亚利桑那炙热的沙漠和学院派宁静的科研生活,他从学校转身进入硅谷,开始了自己的数据科学职业生涯。

今天,活跃在各行各业的数据专家们,大多都经历了那个时代,走在了数据腾飞的风口浪尖。

“当时还没有什么数据科学的概念。在我学习的信息系统专业时,课程会要求我们用信息去决策(数据决策)。所以在读书的时候,我就逐渐感受到了数据的重要性。”学生时代培养的数据直觉,潜移默化中影响着单艺的职业选择和判断。

“我在硅谷的第一份工作,是负责CRM(客户关系管理)领域的数据挖掘。”从数据界“出道”的时候,单艺最开始选择的是CRM数据分析师的职位。

当年的数据挖掘还没有Hadoop等分布式系统架构,也没有完善的工具和语言。单艺他们当时做数据分析,都是用的Excel,不够用的时候也会用Java自己写一些程序。那个时候数据挖掘的目的也非常实际,不是人工智能,也无关人类未来,“就是解决实际业务问题,那一单单的数据可都是钱呐。” 快20年过去了,虽然如今数据科学行业与当时已经大不同,但单艺谈论起刚工作那会儿的事儿,依然兴趣盎然。

“‘数据科学家’这个称谓最早在硅谷出现”,单艺说,“曾经坊间传言称‘数据科学家’即是在硅谷工作的统计员”。在单艺看来,现在的数据科学与统计学密切相关。它以数理统计学为核心,结合了现代的概率论、机器学习、数据可视化、数据库、软件开发等多领域的理论和工具,目的是通过分析、挖掘数据,形成业务洞察和数据驱动的决策,并为此提供高效的工具。

“我当时每天思考的,都是如何根据业务从简单的统计做起,怎么建模,怎么打通数据,最终解决实际问题。”对单艺自己来说,当时的他并不希望留在学校成为一个传统的科学家,受到科技大环境影响的他,更希望进入到业界,把数据真正和业务结合起来。于是他放弃了继续留在学校读博,转身投入到了更接地气的工业界,开启了自己的数据科学之路。

从分析师到CDO,他把数据科学上的“坑”全都踩了一遍

虽然第一份工作做的是数据分析师,但是单艺骨子却是一个程序员。

他一直喜欢自己写程序,在工作之余还保持着高昂的写代码热情。后来他甚至为公司开发了一个复杂的中间链系统(用于打通公司内部的数据传输),然后顺便,走上了系统开发的程序员道路。

从分析师到程序员的转型跨度,不亚于重新换了个职业。

“其实,到现在来看,这也是区分数据科学行业两种不同人才的重要标准。”单艺认为,分析师其实更偏咨询,它要求与人沟通的能力和解决实际业务的能力;而程序员,或者说数据工程师,则更偏研究,要求的是编程、算法等技术攻关能力。

“不过我自己转型的时候还是蛮顺利的,这可能跟我之前一直比较喜欢编程有关吧。”单艺腼腆地笑了笑。他现在仍然每天都在写代码,顺手写个小插件解决一些业务问题。对他来说,编程是日常生活的一部分。

随着技术和计算能力的不断发展,数据的应用开始迅速超越传统行业,向数据量更大、计算更复杂、应用价值更超前的互联网领域迈进。一时间传统的描述性统计和Excel已经越来越力不从心。于是,单艺接下来从程序员又转变角色,成为一名算法工程师,完成了从商业数据挖掘到数据科学业务的转型。

“当时离大数据最近的行业:一个是搜索,后来是广告。” 如何实现搜索的个性化。怎么样根据上下文,把搜索变得更精准等等?基于海量的搜索数据,单艺有机会在最前线去探索数据科学的价值。

误判了移动搜索的业务前景,算是单艺在数据科学路上踩过最大的坑。随着智能手机的普及,他起初认为如日中天的互联网搜索业务将来也会成为移动端的一大特点。但是移动端的搜索入口最终被海量APP占领。单艺坦言,这是他当初没有想到的。

后来他的角色又陆续发生了变化,担任过几家公司的算法工程师,也勇敢地成为过创业者,一直到今天出任猎聘网的首席数据官,管理一个数十人的数据科学团队。这么多年来,可以说数据圈里的“坑”,单艺多多少少都踩过一遍了。

“数据是用来解决问题的。”这是他多次职业选择中始终坚持不变的原则。

“数据科学”是为了实践,不是搞场实验

一身Polo衫,穿着休闲短裤,如今的单艺还保留着当年程序员的那种质朴、实诚的感觉。

访谈中他一直强调自己是“做技术的”,是“要解决问题的”。DT君觉得,这可能是如今那些“十天掌握Python、零门槛机器学习实践、一个月速成全栈工程师”等满天飞的数据广告,所欠缺的一份态度。

单艺说,在公司,数据科学家的职责核心是:如何让数据在公司里产生最大价值。

“在实际中,我的工作内容是分阶段的。开始的时候,我要负责搭建一个数据团队;后来就根据问题、业务驱动来做项目;当团队比较大、项目较为成熟后,我就要负责战略方向,变现数据资源和人才的培养等。”

是骡子是马,拉出来溜溜。在今天的数据科学产品中,最核心的关键词一定是“智能化”。在猎聘,单艺一直致力于通过数据科学让招聘更加“智能”。

(图片说明:Google Trends显示的最近五年Big Data与Artificial Intelligence在中国区域内的搜索指数。从2014年底开始,大数据和人工智能开始逐渐受到人们关注,2015年迅速升温。2016年初,AlphaGo的横空出世带动了人工智能的持续火爆。到今天,人工智能作为数据科学应用的一个主要载体,依然活跃在公众的搜索视野中。)

单艺这两年交的答卷,是机器伯乐和薪酬数据库。

在互联网招聘领域,最核心的问题在于:人岗匹配。猎聘做的是全行业招聘,但是三百六十行,每个行业都有不同的技能组,如何去量化这些技能组?然后智能匹配岗位和职业呢? 

“比如招聘程序员和记者,程序员相对好一些,你可以说他需要会Hadoop,会Python,会R;但是记者又要怎么量化呢?你说他会写文章?什么叫‘会写文章’?这个问题程序员也一样可以细化,比如如何判断他是一个熟练的Python工程师?什么叫‘熟练’?这个是非常有挑战的任务。”

这就需要一套智能的机器学习模型。整体逻辑就是针对不同对象,考虑不同的体系,然后用历史数据不断去训练机器,学习HR、用户的使用偏好,从而推荐最合适的职位。用当下最时髦的话说,就是“人工智能”。

这有点像淘宝的推荐系统。公司的HR就是购物的人,一份份的简历就是淘宝页面的商品,当HR不断去在上面选择简历的时候,机器就会越来越懂公司选人的偏好,给HR推荐更加优质的简历。反过来也是一样,当求职者不断投递简历的时候,机器也会根据你的投递偏好、简历内容推荐更合适的单位。

“从数据上说,机器伯乐的应用让网站推荐系统的满意率,比以前高了一倍。”这是用数据创造的价值。

单艺还表示,未来猎聘还在考虑将求职者性格和公司文化这些因素也纳入机器运算的范畴。从技术上来说,这会涉及更多心理学、社会学的内容,以及大量的标注数据。这是之后数据智能发展的方向。

谈钱不伤感情。所谓求职,形式上是人岗的匹配,本质上是一个利益关系的交换。那钱的问题就不能不谈。

“猎聘制作了一个内部的薪酬数据库用来服务市场对薪酬数据的需求。”这是一个主要服务于B端的查询产品,猎聘的数据来源包括线上采集和线下调研两个方面。在确保数据准确性上,单艺表示数据库大部分数据都是通过算法来矫正、清理的。他们会经常把数据库的分析结论制作成报告,发挥数据产品的社会价值。

比如,他们最近发布的报告就称:中国数据科学行业正在蓬勃发展,但是人才难觅,行业薪资普遍较高。

21世纪最贵的是什么?人才!

于是DT君问了单艺一个很关键的问题:为什么这个数据科学行业会如此火爆呢?

DT君:“是不是因为它赚得多?”

单艺:“前提是你要考虑自己的兴趣,你要真正喜欢。”

DT君:“但是它确实赚得多?”

单艺:“如果硬上弓,很容易触摸到天花板。”

DT君:“但是它确实赚得多?”

单艺:“它确实赚得多。”

那到底赚的有多多呢?单艺说,根据猎聘的统计数据,数据科学的几个行业缺口很大,不同的职能方向、年龄等因素,都会成为影响薪酬的因素。“整体来讲,比同龄的的其他职位,薪酬水平要高出20%~50%。”

DT君在猎聘网上随便找了两个职位,你感受一下:一个三年工作经验的记者的年薪在10-18w;同样的,三年工作经验的大数据系统工程师的年薪则在24-48w。

(图片说明:猎聘网上随机搜索“记者”与“大数据工程师”职位的公开招聘信息对比)

当然,从数据分析的角度看,这么比较薪酬并不科学,但是数据科学行业的火热还是能通过互联网直接地感受到的。 

另一方面,这个行业也确实很缺人。根据猎聘网内部的人才短缺指数,数据科学人才的短缺指数,相较于其他行业,要高出2~3倍。原因主要有两个方面:

  • 第一,历史上没有积累;

  • 第二,对人才的综合素质要求高。这个岗位普遍要求人们掌握复杂的技能,算法、编程、架构理解、业务等。

“但是归根结底,对于每个人来说,这是一次重要的职业选择。你要真正喜欢它才行,薪酬和人才指数,并不是关键。”

单艺接下来讲了一个他在美国工作时候的故事。

大概十年前,互联网开始流行网络博客的产品。当时他住在斯坦福的大学校园里,在工作之余,他很喜欢上博客浏览博主们分享各种有趣的事情。当博客文章越来越多后,他在寻找某些博客时,开始变得非常困难。

“我发现中文的博客上竟然没有搜索功能,我想,为什么我不自己写一个博客搜索引擎呢?”于是,他就从斯坦福的校园里拉了一根网线,建了个服务器,不声不响地把自己闷在家里一个月,hack了一个中文的博客搜索引擎。

“当时我就在想:啊!斯坦福的网是真快啊哈哈。”

这个小产品当时在国内的博客圈里还引起了一阵骚动。“每天都会有几千人来访问,我当时就觉得,嘿,还蛮好玩儿的。”

这个故事不仅要告诉你,兴趣是最好的老师;还要告诉你,兴趣也是最好的财神爷。

“当时我是出于个人爱好,做了这么个小产品。后来一个在雅虎工作的朋友看到了,感觉:哎呦不错。他就找到我说:我们正在雅虎做搜索引擎,你要不要来一起做做看?”

于是,单艺就加入了当时的搜索行业巨头雅虎。时间一晃,就到了现在的位置。

“做数据科学,最重要的是:你要做的东西,是有价值的,这是最关键的。”回顾过去,单艺坦言自己也走过弯路,经历过低潮,但是每当遇到岔路的时候,他总会问自己:这个东西能不能产生价值?你是不是真的喜欢?

没错,这个行业很热,这个行业钱很多,但当你也想当弄潮儿的时候,DT君建议你不妨先问问自己:我真的喜欢么?如果答案是Yes,那就不要犹豫。

再多的坑,也怕有心人一个一个地踩。踩实的路,回头看,就是一条康庄大道。

数据侠门派

单艺,毕业于清华大学和美国亚利桑那大学,分别获得了管理信息系统专业的学士和硕士学位。 目前担任猎聘网首席数据官,负责机器学习技术和产品研发、商业数据分析以及大数据基础设施建设。他具有超过17年的数据挖掘和系统研发经验,曾经入选“影响中国大数据产业进程100人”。

关于数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)

分享这篇文章到