feedback

意见

反馈

back-to-up

回到

顶部

数据科学,预测未来的水晶球 | 数据科学50人·张尚轩

数据科学50人

· 张尚轩

颜安琪   01-23

"Data Science(数据科学)”曾一度被认为是“Statistician who uses python and lives in San Francisco(用Python且住在旧金山的统计学家).”作为培养了2000余位数据科学家的美国纽约数据科学学院创始人,张尚轩却将数据科学定义为一个“可以预测未来的水晶球”,能够渗透人们生活的方方面面。至于数据科学家,在她看来更是一份结合了探险家与侦探的“酷职业”。

数据科学,像是水晶球

“我周二把采访问题反馈给你们。”北京时间下午14:57,纽约时间凌晨1:57,隔着13小时的时差、10000余公里的直线距离,张尚轩在微信上对我们的采访需求作出迅速回复。而后,DT君也如期在北京时间的下午4点,纽约时间的凌晨3点,收到了她对于我们提出的诸多问题的答案。

DT君不禁感叹,数据科学家如她所言,真是“一群精力充沛、充满好奇心,又不甘寂寞的群体。”

张尚轩是上海人,从1997年开始接触数据科学,到2004年进行较大的商业项目,再到2013年在全球第一大都市美国纽约创办了专业培训数据科学家的纽约数据科学学院(New York Data Science Academy),她已在数据科学领域前行了12年,培养了两千多名数据科学家,并成为了数据科学时代的高知女性代表。

尽管《哈佛商业评论》将数据科学家称为“21世纪最‘性感’的工作”,美国企业、职业点评网站glassdoor也连续三年将数据科学家评为美国最好的工作,但张尚轩却用一份“酷职业”总结了数据科学家的精髓:“研究数据科学就像是拥有一颗水晶球,可以预知未来,你的‘预知’能力来自于深厚的数学、统计、建模、编程行业知识,这个是一份很酷的职业。”

图片说明:《Glassdoor 2018年美国最佳职业榜》,数据科学家位列榜首。图片来源:Glassdoor

看似“魔幻”的说法,背后其实不无逻辑道理。这项综合了数学、统计、建模、编程,以及垂直行业知识的工作,可以帮助我们从海量数据中找出最有价值的信息,并应用于商业和研究领域的方方面面。小到家庭购买哪处的房产、孩子应该上哪所学校、如何找到生活中性价比最好的选择,大到社会资源的调配和管理(政府公开数据)、交通、基础建设问题……似乎,数据科学家又像是探险家与侦探的结合体。

图片说明:数据科学家所需的专业技能和背景。图片来源:Data Science Central

基于这样“挖掘未知”的能力,也就不奇怪,在2018年3月教育部公布的《2017年度普通高等学校本科专业备案和审批结果》中,“数据科学与大数据技术” 在862所高校最新获得批准的248个专业中脱颖而出,成最热门专业。

尽管数据科学距离普通人,看似十分“遥远”,但张尚轩认为,大多数人只是没有意识到的自己早已浸入在数据科学的世界里。一如人工智能领域的领军人物吴恩达教授所言:“每个人每天可能用到几十次机器学习算法而不自知。手机上的语音助手、淘宝上的商品推荐系统、信用卡防欺诈系统,都是我们日常可以接触到的应用。”

随着科研和商业深度结合、发展,张尚轩相信未来的数据科学会越来越“聪明”,但人类的直觉和经验依旧不可替代:“目前,数据科学还是萌芽和起步阶段,还有很长一段时间的普及期。5-10年后, 相信数据就会成为像互联网一样不可或缺的公司资产,数据科学也会普及到普罗大众都能受益、理解,甚至应用的程度。”

纽约数据科学院,是美丽的意外

1997年,IBM制造的国际象棋机器“深蓝(Deep Blue)”战胜了当时的国际象棋世界冠军卡斯帕罗夫 (Garry Kasparov),成为了人工智能历史上的一个标志性事件。1997年,亚马逊以18美元的发行价进行了首次公开募股,贝索斯也在随后一年里,进入了《福布斯》全美400富豪榜单。1997年,中国电信面向国内推出了价格较为低廉的163网和169网,让互联网真正走进寻常百姓家,开始了飞跃式发展。张尚轩的数据江湖,也是始于充满传奇色彩的1997年。

彼时,张尚轩正在念高中,但已经对数据科学领域产生浓厚兴趣。本科就读计算机系时,她还利用所有的假期和课余时间去各个软件公司实习。久而久之,去高新技术圣地硅谷攻读计算机硕士,也就成了职业规划中顺理成章的一环。尽管在学业和事业的发展上,张尚轩认为自己属于“循序渐进类型”,“个性和兴趣决定了人生的道路,如果有机会就勇敢地抓住”。但DT君却觉得,她更像是“一针见血”型,一旦设定目标,就会享受一关关打过去的过程。

2006年,正在圣何塞州立大学攻读计算机硕士的张尚轩,在第一个学年结束时,来到硅谷一家知名的网络安全公司担任实习生的工作,实践的工作经验使她意识到,数学和统计才是数据科学及机器学习最核心的内容。

于是,2008年毕业后,张尚轩便从西岸的硅谷搬去东岸的纽约,前往数学专业负有盛名的纽约州立大学石溪分校攻读第二个硕士学位——统计学硕士,并在纽约石溪大学医疗中心展开了第二份硕士兼职工作。

这份工作不仅为她带来了全额奖学金、生活补贴,更锻炼了她的意志力和体力。即便当时每个学期有4-6门课,一边上学,还要一边工作20小时/周,但张尚轩依然做到了提前半年毕业,这让她意识到,“很多挑战并非不可完成“。

双硕士毕业之后,张尚轩也面临着和普通人一样的就业压力,但幸运的是,她又一次完成了自己设立的目标,加入了布朗大学统计研究中心。“当时找工作的重点是知名学府的研究中心,因为这样可以一边积累实际的工作经验,一边取得博士学位。”张尚轩如是解读自己的小心机。

长青藤联盟学校严谨的学风和研究体系使张尚轩得以在计算机系数学系和不同的医学院之间做跨学科合作。两年后,已经准备好接受更大挑战的张尚轩,加入了全球癌症研究排名第一的斯隆凯特琳癌症中心,研究领域也变得更加商业化,从艾滋病、缺失数据、因果关系数据的研究,转向医院商业保险的数据分析、医疗质量的检验、研究病人术后再入院的可能性、找出强信号来预防再入院的可能性等等。

尽管研究的内容很让人自豪,但是频繁接触癌症病人的数据,也让张尚轩对生命意义有了更深刻的认识,“我不愿意看到这么多死亡和病痛”。加上平日里参与救助流浪者的一些志愿者工作,使她逐渐意识到,或许“授人以渔”才能更好地帮助这个社会。

于是,从2013年的5月开始,张尚轩便利用业余时间针对“如何利用纽约公开数据做研究和分析”在纽约曼哈顿地区进行了80余场免费的教学讲座,内容涵盖大量流行的数据分析和可视化编程工具(R, Python, Hadoop, D3.js, Processing, Location data query等)。迅速获得了45家公司的积极响应和赞助,其中不乏微软、麦肯锡这样的行业巨头。

图片说明:纽约数据科学院公开课现场

张尚轩说:“最让我有成就感的是,客户告诉我,他们很喜欢我的课程且觉得非常实用。”在这样的“机缘巧合”下,同年11月,纽约数据学院如愿开张。

创业从来不易,问及这些年的“最难点”时,张尚轩坦言,是学会“取舍”:“可以做的事情很多,但资源是有限的。如何在项目中做取舍,如何在合适的团队成员中做取舍,都需要准确考量、判断。当然营销、创造力,这些也都很重要。”

图片说明:张尚轩是Forbes女性专栏的签约作者,发表数据科学的洞见。图片来源:Forbes

尽管很多年前,张尚轩一直以为自己都会获得计算机系或统计系的博士,继而按部就班地数学和统计方向做更深入的研究,成为一名教授。但如今,创建纽约数据学院,在全球范围内培养了2000余名数据科学家,并改变他们的人生,这对张尚轩来说,也不失为一个最美丽的意外。

DT时代,“学习”是永恒的关键词

张尚轩的微信头像是和两个孩子的合照,三人在画面里笑靥盈盈。

最初采访的时间约定是纽约时间早上9点,张尚轩略作抱歉回复:“我家两个宝贝早上送上学,最早9点半才能到办公室。”让人恍然,抛开数据科学家的身份,她还是一位妻子,一位母亲。

作为福布斯列出的“数据分析领域的 9 位女性”之一,张尚轩坦言很欣赏每个女性科学家,因为能够感同身受这一路走来的不易,“我愿意倾听每个人的故事,也会鼓励孩子和晚辈们勇敢地学习理工方向,这个领域的女科学家太少了。”

图片说明:就中国就业市场而言,女性从业者依旧是数据科学领域的稀有物种。

联想2018年的诺贝尔奖所授予的3位女性科学家,其中包括物理学奖获得者Donna Strickland,然而直至诺贝尔奖名单发布后的一个半小时,这位杰出的女学者依然没有自己的维基百科页面。当时代赋予女性更多的关注,或许也是一种进步。

图片说明:国内女性数据科学家,更偏爱数据挖掘工程师和数据产品经理的角色。

回顾刚刚过去的2018年,“2018年脸书的数据泄露”、“毒性流传中伤希拉里的视频,并对美国大选产生深远影响”是张尚轩最印象深刻的大数据事件。

在她看来,数据隐私和安全开放是一个很需要投放时间精力研究和推广的领域,尤其是政府部门,必须做好预算、时刻表,来开放政府数据。张尚轩以“洛杉矶警察局在互联网上实时公布犯罪发生地点和时间”为例,阐述如何安全开放数据的重要性——这个尝试原本是降低民众被犯罪影响,最终成了黑帮和犯罪集团掌握实时执法情况的途径。

针对目前社会上的数据孤岛现象,张尚轩也有自己的洞见。她首先重申开放数据的概念:“如果你收看天气预报、使用GPS定位功能、研究上市公司财报来选股票……那么,你就是在使用开放数据。”张尚轩还觉得,作为人们步入信息时代以来最具革命性的发展之一,开放数据的优势就是基于免费、开放的数据构建可行的商业模式,通过适当的利用则能为企业创造巨大的价值。

“Google Maps 是Google自己的数据+政府提供的GPS数据结合开发出来的;美国Climate Corporation公司,利用气象数据,销售气象保险,进行农业耕种革命……”她如数家珍地说起数据开放与商业结合的案例,并结合纽约数据科学院在发展经验,提出数据孤岛的解决方案:“我们学院和很多企业、研究机构合作,由他们提供学生数据,来解决商业和学术中的实际问题,最后的项目成果属于企业和研究机构。这个方式解决了数据供应和专业知识代沟的问题。我想大部分数据开发问题都可以利用类似的方式解决。”

至于目前中国数据开放和发展阶段,以及中美大数据产业的发展比较,张尚轩也评判得很客观:“中国的创新领域和美国不分高下,甚至在特定领域已经超过了美国,电子商务和移动支付都是很好的例子。中美的核心竞争力和创新力应用的领域有所不同,但两个市场都很蓬勃。我觉得因地制宜很重要,市场的差异性并不是什么大问题。”

作为一位数据科学领域的先锋教育者,张尚轩语重心长地给出了在这个DT时代的建议——数据科学从业者需要奋力学习,学会接受更多的挑战和洗礼。她所建立的纽约数据学院也希望能帮助更多年轻、有热情的职场精英进入数据科学的专业领域,实现自己的增长目标。

“纽约数据科学学院有一期训练营就有一个学员,曾经是调酒师,但本着对数据感兴趣, 对学习充满热情, 从训练营毕业后,成为了一个成功的数据分析员。”张尚轩曾在接受Fox News采访时如是阐述,学院的成长是她和纽约数据科学院的老师们最大的欣慰。

在她的课堂上,有传道受业解惑,也有实战以及与业界大神的面对面。在一次训练营中,张尚轩特邀了Kaggle排名第一的数据科学家Owen Zhang与学员互动分享数据科学的经验。这些努力与尝试也让纽约数据科学院连续多年被美国课程评级机构评价为“美国最好数据科学培训机构”。

图片说明:张尚轩与Kaggle大神Owen Zhang的合影

对于2019年,对于个人,为人师的张尚轩的年度关键词也依旧是“学习”。

她说:“或许正如最近爱看的影视剧《了不起的麦瑟尔夫人》中的麦瑟尔夫人米琪那样,要对生活保持热情,在这个最好的时代和领域,‘学习’更多的新知识,并把它灵活应用于各种生活和商业场景。 ”

数据科学50人成员

张尚轩(Vivian Zhang),美国纽约数据科学学院(NYC Data Science Academy)创始人兼首席数据科学家。有多年数据挖掘、数据分析经验,擅长R、Python、Handoop、Spark等编程语言。曾被福布斯杂志评为“数据分析领域的9位女性”之一。翻译编著了《开放数据》《应有预测模型》等畅销书。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

分享这篇文章到