feedback

意见

反馈

back-to-up

回到

顶部

数据科学,谁说女性不可以?| 数据科学50人·万菁

数据科学50人

· 万菁

程一祥   07-27

万菁,State Farm(全美最大保险与金融服务公司之一) 首席数据科学家(Principal Data Scientist),美国普渡大学计算机专业博士。她在计算机视觉、深度学习、大数据处理、医学图像处理等领域有十多年的研究和从业经验。她还是科技女性运动的积极倡导者,并想用自己的故事告诉大家——数据科学这件事儿,你也可以。

达拉斯夏天炎热的天气,有时候会让万菁想起自己的故乡南昌。在美国定居并已经育有孩子的她,如今在工作的时候,还是会时不时地想起过去的事,把二十年前的自己和现在自己做一做对比。

从南昌到上海,再到达拉斯,如今已经是 State Farm 首席数据科学家(Principal Data Scientist)的万菁,回忆起过往,也常常感叹,自己与数据科学结缘的那些日子。

失去了分数,是一切的开始

不像很多数据科学家很小就知道了自己追求的方向,中学时代的万菁,对未来其实没有什么目标。

她是人们眼中典型的“别人家的孩子”,学习成绩优异,让父母老师放心,是被老师认为要上清华北大的“种子选手”,从小到大各种考试都是“前三名”。在万菁眼中,她想的也只是学习,“我当时太要强了,我一定要考第一名,考第二第三名我都觉得是不光荣的,没有意义。”

虽然每一门成绩都很好,但万菁其实并没有想过太多成绩背后的意义。“我喜欢什么?未来要做什么?这在当时都是没有想过的。”这位AB型血的处女座女生,强迫症式地把自己框在了成绩的怪圈里,怎么也走不出来,直到高考那决定命运的两天。

老天与她开了个玩笑。

“那是我最失败的一次考试”,万菁回忆说,“第一门没有考好,然后我的心理防线就崩塌了。”

最后成绩出来,万菁差了目标十万八千里。上清华北大是没有希望了,她最后随了父母的建议,上了南昌本地的大学。“没办法去北京了”,万菁说到。

高考的失利,反倒让她放下了自己对生活的得失心。“因为你知道一个人从一个学习的高峰,突然从云端跌落谷底时,可能就会重新审视自己的人生。”万菁觉得自己之前都太要强了,钻到了成绩的牛角尖,以至于忽略了自己内心的想法。

进入大学以后,她在课堂之外花了更多的时间,打辩论、做社团、忙活动。视野开阔后,万菁开始更多地思考自己的兴趣所在。她大学的专业是当时最火的电子工程,课程要求既需要去焊接电路板,做硬件的内容;又需要编程,做软件的活儿。

“那时候学C++编程的时候,怎么说呢....我觉得很享受,很享受这种逻辑思考、一步步写编程语言的感觉。”万菁说到。而且在这个男生居多的专业里,万菁的成绩依旧排在前列,她曾代表学校获得大学生数学建模竞赛的全国一等奖,还拿下了江西省电子创新科技竞赛二等奖等荣誉。

“大家往往认为,在逻辑性强的领域,男生普遍比女生做得好,但其实很多时候这种潜意识的看法并不正确。”在大学期间,万菁一直在专业里保持着优异的成绩,而且她越发痴迷于逻辑性强的数学建模和软件编程科学。

强调逻辑、保持严谨,多年后回想起来,万菁觉得这是她与“数据科学”产生交集的起点。虽然在考场上失掉了分数,但对万菁自己来说,其实是让她找到了未来二十年要走的方向,用她自己的话讲,“开拓了我的想法和思路”。

万菁本科毕业后,恰逢中国通讯市场的繁荣时期,电子工程专业非常吃香。她的很多同学都加入了华为、中兴、思科等大的通讯企业,拿了高薪。万菁却去江西财经大学当了一名高校老师——“因为我要考研,我一定要去更高的平台上,看看世界的样子。”

二维码的遗憾

经过两年的准备,万菁研究生考入了上海交通大学的模式识别与智能系统专业。

“其实这个专业就是‘数据科学’,它研究的课题主要是医学影像处理、人脸识别、指纹识别、虹膜识别等等,但是那时候我并不知道,它只是一个很小的交叉专业,我当时就是全凭兴趣。”万菁觉得这冥冥之中也有些缘分,自己歪打正着地选择了现在的大热行业。

万菁很幸运,她的研究生导师是上交图像处理与模式识别研究所时任所长施鹏飞教授。施老是国内最早研究人工智能领域的专家之一,在数字图象处理、机器人视觉、智能技术与系统等专业领域都有卓越贡献,他在1993年出版的《人工智能教程》是国内第一批 AI 教学领域的著作。

在施老的指导下,万菁开始了自己在上海的研究生生活,研究领域主要集中在图像处理、虹膜识别,以及二维码。

“我现在总说我当年错过了一个成为百万富翁的机会”,万菁笑着谈起了自己那段研究二维码的经历,颇有遗憾地感慨自己错过了一个绝佳的创业窗口。“我是中国最早几批研究二维条码的人,当年做完,发了paper就出国了,根本没有想那么多。过了几年一看,怎么满大街都是我当时研究的QR code啊,真的是错过了一个创业机会。”

随着移动支付的普及,现在大家生活中都已经很熟悉二维码了。买东西时移动支付,微信添加好友,扫一个共享单车、共享充电宝,抢一个手机红包......二维码在我们生活中如今已经无处不在了。不夸张地说,以共享经济为代表的移动互联网浪潮,就是建立在二维码这种安全、便利的编解码技术之上的。但在二十年前,这都还是镜花水月般的存在。

大家现在所熟悉的QR code,其实只是二维码的一种码制,在二维码近四十年的历史上,还出现过众多其他码制。国外早在上个世纪八十年大就开始了对二维码的研究探索,中国起步稍晚,到1993年,中国物品编码中心才对PDF417、QR code、Data Matrix等几种常见码制二维码的技术规范进行了翻译和跟踪研究。

(图片说明:QR code 二维码的基本结构;图片来源:CSDN

QR code码由日本DW公司在1994年发明。QR是英文 “Quick Response”的缩写,代表“快速反应”的意思,源自发明者希望其内容可以快速被解码的初衷。万菁研究的二维码就是QR code,她很幸用,QR code后来成为了中国的主流二维码模式。与此同时,她还有一位同学在研究另一种码制 Data Matrix,不过这些码制在后来都逐渐被淘汰,退出了二维码的主流舞台。

“那个时候,中国市场上还没有什么系统介绍 QR code 编解码内容的资料,我的任务是用C++编一套QR code的编解码系统,能对输入的文本内容编码成QR code图像,同时可对图片中的QR code解码成可读文本。”万菁花了半年的时间,经常跑到上海专利局,查阅编码的资料,最后成功实现了QR code的编解码系统(一个可交互式App),并写出了自己的研究生毕业论文。“这篇论文后来成为了国内 QR code 领域被引用次数非常多的一篇文章。”万菁自豪地说到。

虽然有点遗憾,不过某种程度上,二维码的这段插曲,其实并不是万菁在数据科学道路上的主要方向。研究生毕业后,她放弃了在上交直博的机会,来到了美国普渡大学,选择了医学影像分析方向继续深造。

搭上了数据时代的高速列车

博士研究阶段是万菁逐渐深入转向数据科学的关键时期。

“那个时候有一个宏伟的目标,我觉得去做医学影像分析很有意义,能帮助很多受疾病困扰的人进行早期疾病诊断。”万菁觉得,自己所从事的数据科学真的有这种力量。普渡大学没有医学院,但万菁很幸运地加入了在印第安纳大学医学院医学图像研究的沈理教授团队,使得她能够接触第一手的医学图像数据。沈教授在医学图像的疾病诊断方面有深入研究,在针对阿尔茨海默病等医学图像研究领域是新一代的国际领军人物,万菁说,“从沈教授的实验室中,我学到了最严谨同时又富有创造力的数据研究方法”。

在美国,胎儿酒精综合征是一种困扰很多孕期妈妈的常见问题。万菁说,有些母亲不注重个人生活习惯,在怀孕后还会饮酒,最终会导致生出的孩子出现身体机能上的缺陷。“有些胎儿或小婴儿面部大小发育受限,有些嘴唇很薄,有些没有鼻梁,在常规的检查中,医生很难发现胎儿或小婴儿的面部异常情况,但是如果用图像进行三维分析的话,我们就可以帮助医生更早地发现疾病,及时提醒孕妇,并进行有针对性的早期干预。”

(图片说明:美国的医疗行业早在近二十年前,就开始使用一些图像分析技术来帮助医生分析病情。图为电脑辅助X光片诊断处理。图片来源:视觉中国)

 

万菁所在的团队主要通过对图像进行三维还原重建,来比对分析胎儿的发育情况。在这个过程中,他们要处理的图像数据必须转化为网格式的分析元素,“如果把每张三维图片划分成一个一个小方块,那么每个图片都有10^9 的信息量,我们还有大量的图片,这毫无疑问是‘大数据’了”,万菁说到。

在对图像进行比对的时候,他们还要建立相关的分类器,这就需要引入机器学习领域的知识。到博士后期,万菁已经把研究方向转移到了机器学习上,开始思考如何在医疗影像分析中使用 AI 技术来辅助医生进行诊断。

就这样,万菁搭上了开往大数据时代的高速列车。

就在她读博期间,“大数据”的概念开始席卷美国主流社会。经过多年的数据积累,不仅在医学领域,金融、电商、互联网等行业都纷纷涌现“数据科学家”、“数据分析师”等职位,各大公司开始越来越重视数据在行业中的应用。2013年,舍恩伯格的《大数据时代》传入中国,也开启了数据科学在中国发展的黄金时代。

2014年,博士毕业的万菁加入了全球最大的旅游数据公司之一Sabre,担任数据分析师。在Sabre,万菁最大的收获是真正认识了互联网的“大数据”——Sabre每秒至少发生8000笔交易,万菁的工作就是用数据科学的方法去检测这些交易,发现其中的问题或者市场趋势,为市场部门提供数据洞察。

不过Sabre的工作与万菁的期待还是有些距离,她并不满足于只做一些后端的数据挖掘,更渴望做一些前沿的研究项目。一次偶然的机会,让她加入了美国最大的汽车房屋保险公司 State Farm,并一直工作至今。

(图片说明:State Farm在达拉斯的办公大楼,这距离万菁的家只有十几分钟的开车距离;图片来源:State Farm官网

 

“当时猎头找到我,告诉State Farm目前在使用GPU做很多大规模数据运算,既用到了图像处理技术,还要兼顾很多大数据计算问题,我就觉得非常适合我的背景,而且他们的公司就在达拉斯,离我的住处很近,我想为什么不试一试呢?”

在State Farm团队,他们通过数据科学技术,提高了很多保险业务的自动化程度。比如他们运用图像处理技术极大简化了车辆的理赔程序。过去很多需要理赔员到现场的保险事故,以后只需要通过用户拍照就可以机器鉴定,快速理赔。不仅如此,他们还将无人机也应用到了测定理赔中,例如在测定房屋保险时,由无人机对房屋进行巡航拍照,再交由被海量数据训练过的机器处理,最终实现自动化裁定、理赔的过程。

万菁认为,国内如今很多公司也在建立数据科学团队,但却往往处理不好商业化落地的问题,其本质是因为他们对数据科学团队的管理不够有效率。在State Farm,万菁的团队通常是以能直接带来经济利益的短期商业项目和具有商业远见的长期研究项目相结合的方式,对数据科学团队进行管理。

“我们对短期商业项目,会要求团队像互联网公司一样实现敏捷开发,先出产品再不断迭代;对于研究类项目,也是摈弃了过去的‘瀑布’模式,采用敏捷开发的模式,先订一个小目标或做小范围数据建模,得到有效验证后,再扩大目标或用更多的数据建模。这样的模式既能让公司高层领导看到短期内研究项目的结果(quick win, or quick fail),也能保证研究项目的可靠性和方向的正确性。”万菁说到。

谁说女子不如男

前一段时间,全球最大的编程爱好者社区 GitHub 被微软以75亿美元收购,这条新闻在数据从业者的朋友圈里也被讨论得沸沸扬扬。GitHub 在坊间还有一个经常被网友们调侃的名字:全球最大的同性交友平台——更确切地说,是男性交友平台。

因为大家普遍默认,在计算机等数据科学领域,男性的数量确实占据了主导地位。这一现象在中国的数据科学界更加常见,在人工智能、自动驾驶、金融科技等数据科学主题的论坛上,你很难看到女性科学家的身影,在场的大多是男性科学家,他们侃侃而谈着数据科学的未来,畅想着光明的商业场景。

于是,很多人开始觉得,是否在数据科学领域,女性真的不如男性?

万菁并不这么认为。“在我们公司,女性数据科学家的比例占到了⅓, 团队的VP也是女性。在数据分析师中,女性的数量更多。”在万菁看来,在数据科学领域,女性丝毫不落下风。

“女性更注重细节,对待数据时更能找出其中蕴藏的价值;她们往往沟通能力也很强,在商业环境中能更高效地与人交流......这都是女性在数据科学界不应被忽视的理由。”

万菁自己就是一个很好的案例。不论是在中国,还是美国 ,她所从事的研究领域,一直都是别人眼里的“男性更有优势”的学科,但这丝毫没有影响她自己追求数据科学的态度。

(图片说明:Woman in Tech 是一个全球性科技女性运动联盟,她们鼓励女性在科技领域追求事业的成功。她们常与科技公司合作,推动解决科技女性的职业发展问题,在Facebook、Twitter等社交网络平台具有广泛的影响力;图片来源:Women in Tech官网

 

“我觉得有时候,这种对女性的偏见更多与教育因素有关。”万菁告诉DT君,在美国,家长很小就会鼓励孩子去尝试不同学科的东西。公司会经常举办一些开放日的活动,或社区针对初高中生的职业女性交流论坛,让小朋友了解社会中各种不同的工作究竟在做什么,培养他们树立自己的职业发展观。

但中国的小朋友普遍缺乏这种教育环境。高中文理分科时,老师和家长往往会根据孩子当时的学习成绩,来建议他学习文科或者理科;考大学选专业时又缺乏考虑孩子的兴趣爱好。“很多女孩子可能因为理科成绩不好,内心对数据科学产生抗拒,觉得自己不行,其实这都是没有必要的。”万菁认为,数据科学的世界要比高中的理科试卷大很多,这是分数没法决定的。

谷歌云人工智能和机器学习首席科学家李飞飞曾多次在公开场合呼吁,数据科学的人才应该多元化,鼓励女性在科学界承担更多责任。

在数据科学的时代,人工智能已经离我们的生活越来越近。但是机器并没有独立的价值观,它的价值观就是创造者的价值观。那么作为这些人工智能的创造者们,数据科学家就显得无比重要,他们要教会机器多元化、包容、公平公正,他们首先就需要让自己变得多元化、包容、公平公正,这其中当然也包括性别。

万菁最后说到,“看到我们的存在,其实已经说明这(数据科学家)是一个适合女性的职业,这会带来一个正面的循环,从高层到基础层,甚至到初中高中生。她们会觉得:‘也许这是一个我也可以去做的事情’,然后又带来更多的正面影响。那么女性在数据科学行业,甚至是其他的科技行业里面也会越来越多,会发展越来越好。”

数据侠门派

万菁,State Farm 首席数据科学家(Principal Data Scientist),南昌大学电子工程专业学士上海交通大学模式识别与智能系统专业硕士,美国普渡大学计算机专业博士。她在计算机视觉、深度学习、大数据处理、医学图像处理等领域有十多年的研究和从业经验。在国际期刊(如IEEE Transactions on Medical Imaging)和顶级学术会议(如 CVPR)等发表论文20余篇。她的专长在于如何把数据科学落地化,如何提取数据中的商业价值为公司节省费用或者创造新的商业利益。她是科技女性运动的积极倡导者,也是社区建设的自愿者和领导者,她期望的是数据科学和人工智能在整个社区的普及。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

分享这篇文章到