feedback

意见

反馈

back-to-up

回到

顶部

看摇滚女博士,如何玩儿转数据科学 | 数据科学50人·杜晓梦

数据科学50人

· 杜晓梦

文 | 程一祥   2018-03-15

如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、顶尖从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的数据科学领域的顶尖专家,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。赶在农历鸡年的尾巴上,DT君来到百分点在亚运村附近的新办公室,拜访了它的首席数据科学家杜晓梦博士。

玩儿摇滚的数据科学家

入冬以来,北京呼呼的大风,让首都的天空,没有往年那么阴霾。

在亚运村附近的一间小音乐排练室里,为了迎接农历新年的到来,杜晓梦正和与几位乐队成员一起,排练着陈升的《北京一夜》。她双手抚在键盘上,聆听着吉他、贝斯和鼓的节奏,在最合适的时机弹奏黑白琴键,为音乐铺陈旋律,感受着乐队彼此之间的默契配合。

杜晓梦是这支乐队的键盘手。与普通摇滚乐队不太一样,这支乐队玩儿音乐以外,成员们平常大部分时间其实都在搞“副业”——数据科学,比如做做机器学习,搞搞图像识别,用大数据建建模什么的。

(图片说明:杜晓梦和乐队正在排练)

这不,就在去年,键盘手杜晓梦和萨克斯手苏萌合作的一篇关于赞助广告搜索中的多关键词定价策略的论文被ISR(Information System Research,由美国运筹学和管理科学学会出版,国际顶级学术期刊之一)收录。这是一支名副其实的数据科学家乐队。

(图片说明:杜晓梦等人合作的论文Bidding for multiple keywords in sponsored search advertising: Keyword categories and match types被Information Systems Research期刊收录)

在乐队中,杜晓梦是键盘手;在公司里,她是首席数据科学家。杜晓梦博士的研究主要集中在量化市场方向,曾多次在INFORMS Marketing Science Conference等国际顶级学术会议上发表研究报告。

谈起自己与数据科学结缘,杜晓梦博士说,一切都还要从北大说起。

一切都要从北大说起

2003年对于中国互联网行业,是令人兴奋的一年。大洋彼岸刚刚走出科技泡沫的阵痛,世界正在经历互联网浪潮的又一个春天。

这一年,马云成立网上购物平台淘宝网;马化腾推出了QQ游戏,开始对VIP服务收费;李彦宏的百度图片、新闻搜索服务上线。中国的互联网正在发生翻天覆的变化。

这一年,杜晓梦来到了燕园。对于刚进大学的她来说,选择信息系统管理专业几乎是一个不用做太多考虑的决定。更何况那个时候,北大还有一个明星学长做榜样——同样是毕业于信息系统管理系的李彦宏创立了百度,彼时在北大引起了一阵不大不小互联网风潮。

(图片说明:从本科到博士,北大是杜晓梦在数据科学道路上梦开始的地方;图片来源:视觉中国)

虽然是女生,但杜晓梦从小就表现出来一种对数字的敏感性。用她自己的话说就是,“喜欢用数据去解释问题”。

“我从小就喜欢刨根问底,喜欢去质疑一些事情”,杜晓梦说。她的这种质疑精神与北大的气质有着天然的共通之处。质疑、思考、创新,这些抽象的词汇在杜晓梦这儿,其实没有那么复杂,对于一个理工科爱好者来说,其实就是用技术来做一个产品的过程。

“北大当时好多课都很有趣,我们发明了好多有意思的东西。”回忆北大的生活,杜晓梦印象最深的莫过于当年的她研究的“哼唱软件”了。当时,她和同学们正在研究声纹系统课题。

声纹,就是声音的密码。如今我们讨论很多的语音识别等人工智能技术,也是基于声纹的特征逐渐发展出来的。声音作为一种复杂的生物特征,其变量比指纹还要丰富得多。

“当时互联网音乐非常流行嘛,大家常在网上听歌。但是我觉得当时的音乐搜索功能太不智能,只有知道歌手或者歌曲名字才能搜索。但是如果知道了名字,那其实就不用搜索了嘛。”杜晓梦说,很多时候人们可能在某些场合听到一首歌,只记得一段旋律,那么当时的音乐搜索引擎就没办法使用了。于是,基于对声纹技术的探索研究,杜晓梦他们发明了一款哼唱搜索软件。

这款软件相当于如今很多音乐app的“听歌识曲”功能——只要你能够哼唱一段旋律,系统就能实现对音乐的搜索——只不过比它们早了十几年时间。这个作品当时还获得了北大“挑战杯”五四青年科学竞赛的二等奖。

“当时我们完全没有什么创业的想法,只是单纯地觉得这件事儿挺有趣的。”杜晓梦现在笑着说。

那个时候,在北大的校园里,除了弥漫着科技创新竞赛风潮外,同学们还都普遍开始流行学习双学位。大家不再一成不变地沉浸在自己的专业中,交叉学科的概念开始越来越受欢迎。

在这样的背景下,杜晓梦接触到了经济学。

“我当时就觉得,经济学实在太有趣了!”杜晓梦回忆起刚去国发院上课的情景,依然兴奋地说道。当时在北大上课的老师,有很多都是现在中国著名的经济学家,包括林毅夫、周其仁、海闻等,这些“大家”们深入浅出的讲解,让杜晓梦的视野逐渐从技术拓展到经济,开始寻求两者之间的交叉点。

后来,她师从苏萌教授,专攻市场营销模型专业。没错,就是文章开始时的那位萨克斯手。他不仅是乐队的萨克斯手,也是杜晓梦的博士生导师、百分点的创始人。

也正是由于苏萌的影响,杜晓梦逐渐走上了数据科学这条“不归路”。

骄傲的程序员与服务型的数据科学

早在2009年,当杜晓梦还在北大上学的时候,她的导师苏萌就已经在筹备成立一家以“数据科学”为主体的公司。

那时,苏萌带领一群博士挤在北大旁边一间七十多平的出租公寓里,花了几个月的时间,做出了国内第一款第三方个性化推荐引擎。

当杜晓梦在2013年加入百分点时,她负责的数据科学业务仍是沿着推荐引擎这条路,研究如何打通用户的跨站点数据,优化电商的个性化推荐引擎。

在公司里,她聚集了一批爱数据、懂统计、善编程的高端数据人才。他们大多高学历高技能,希望用数据分析改变一些事情。不过唯一的问题在于,那是在2013年,一个“大数据”还没在中国普及的年代,一个还都簇拥在移动互联网热潮怀抱里的时间点。

“我们当时做线上服务,基本是不出差的,因为我们的大部分业务在网上就可以完成。”杜晓梦说,当时他们不需要跟客户解释什么大数据,大家追求的都是极致的算法和工程效果,较少考虑具体的业务问题。这样的工作模式培养了很多“骄傲”的程序员。

一方面,国内数据市场还没有成熟;另一方面,她的数据科学团队又在追求极致的技术。这种市场与行业的认知脱节,是杜晓梦在数据科学上遇到的第一个挑战。

“后来有一次,我们跟客户讲模型、讲大数据,他们对这个领域不了解,就听不懂你在说什么,然后觉得你这个东西没用,开始提各种意见。”杜晓梦说,那个时候,有些同事就没有耐心了,一些自己的”常识“,到了别人那里,就变成了“天书”,起争执是经常的事——“有时候,一些‘骄傲’的程序员感觉跟客户讲不通,甚至想掀桌子走人的都有。”

随着行业的发展,百分点高层决定将公司的业务更多的从互联网转向企业级服务,不仅关注线上,更关注线下的传统行业。正是由于这次转型,很多“骄傲”的程序员也逐渐开始接触产业、接触实际业务。

“有一次我们跟客户介绍价值度分析,他们听不懂我们的逻辑,就问为什么你要把用户分成八类而不是六类?为什么要这样分?在我们的角度,分成八类是算法决定的,是最科学的;但是后来我们明白,站在他们的角度,分成六类最符合实际应用场景的。”实践中,杜晓梦逐渐了解到,在数据科学里,业务规则有时候更加重要。

2015年,转型后的百分点宣布获得D轮4亿元人民币的融资,刷新了当时中国大数据企业的融资记录。

“数据科学,现在看来是一门非常接地气的学问,它一定是解决某一个业务问题的。这就要求你不仅要有学术知识,更要有行业洞察。”最初的那些“争执”,多是源自业务人员与技术人员的认知差异——业务人员不懂数据,数据科学家不了解实际业务。

杜晓梦介绍说,现在自己的数据科学团队多是交叉背景人才,各自分领域进行研究,例如金融、制造业、安防、零售等等。在杜晓梦看来,通用型的数据科学家,就相当于“没用型”。如果不专注深入到某一行业的第一线,大数据是无法真正发挥价值的。

对于杜晓梦自己来说,研究消费者行为是老本行,她最近的研究方向之一就是2017年风起云涌的“新零售”。

数据科学下的“新零售”

“新零售”这个词自从2016被马云与雷军同一天提出后,已经变成了又一个“风口”。盒马鲜生、京东3C等纷纷试水,业内关于这个话题的讨论层出不穷。时至今日,虽然对概念的解读还是百家争鸣,但是大家都不否认的一点,就是数据科学在背后的决定性作用。

杜晓梦在博士阶段的研究课题是营销模型,主要围绕消费者对市场和营销进行数据分析和建模。关于“新零售”的探索,杜晓梦和她的数据科学团队则做了不一样的尝试——他们尝试通过联通数据的方式,构建新的业务场景,拓展商业的范畴。

在宏观的数据视角下,杜晓梦看到了改变传统零售的机会。比如说,我们常去逛的商场。

在杜晓梦的眼里,商场不是一家家店铺的集散地,而是一个由庞大数据交织的有机生命体。按照传统的线下商业模式,商场主要将店铺位招租给个体商家,然后收取商家的租金费用,每个店铺是相对独立的。但是,通过打通商场的消费数据,杜晓梦她们发现,店铺之间其实是密切关联的。

“凡是去逛SK-Ⅱ商店的消费者,90%都会同时光顾星巴克。”杜晓梦说,数据分析让他们发现了品牌之间的联动效应。“这样我们可以建议在SK-Ⅱ的小票上印上星巴克的优惠券,实现品牌的交叉关联引流。如果没有数据分析,我们就不会发现这样这种跨品类整合营销资源的机会。”

(图片说明:大数据让商场中店铺的营销策略,不再单一地以折扣方式存在。它可以通过品牌关联等方法灵活制定营销计划,拓展自己的商业边境)

“再比如说我打通你的会员卡号和你的车牌号,当你进地下停车场的时候,机器就直接抬杆,等你购物完了之后,缴费处扫一下车牌,通过扣减你的会员积分就抵这个停车费了,就完全不用停下来交钱也不用扫码交钱,让购物体验更加便捷。”杜晓梦和她的团队还构思了很多诸如此类的新业务场景。如果没有数据支持,这些新的业务场景就没有办法实现。数据就像是用来拓荒的斧头,拓展了商业思维的尽头。

不仅如此,杜晓梦说,她从数据中还发现了人们思维的变化。联通消费行为数据、社交大数据等,她们逐渐发现,人们更愿意在消费时,购买与自己价值观相符的产品或品牌。人们购物的原则不再是“物美价廉”这么简单,这是一股消费观念的升级。

“这不是过去,例如办信用卡你送点东西就可以了,信用卡商现在要跟二次元、跟明星合作,这也是消费升级。”杜晓梦认为,数据体现了消费者观念的变化,数据分析能够提醒商家,要跟上这股变化。

除了新零售以外,杜晓梦和他的数据科学团队还在电商、金融、公共安全等多个领域开展了关于数据科学的应用和研究。日前,他们正在和公安大学合作,尝试将知识图谱等数据科学技术应用到安防机器人、刑侦案件分析等领域,提升公共安全的效率,让数据科学从底层逻辑上帮助传统行业发展、变革。

(图片说明:杜晓梦和他的乐队在岁末的年会上表演,大屏幕上弹钢琴的是百分点创世人苏萌教授。)

在采访结束后几天后,杜晓梦和她的摇滚乐队在年会上,演唱了那首他们已经排练多次的《北京一夜》。窗外北风呼啸,屋内余音绕梁。不知过了多少个夜晚,也不只在北京,这群人对数据科学的热情才刚刚开始。

数据侠门派

杜晓梦博士,毕业于北京大学营销模型专业,现任百分点首席数据科学家。专长于营销模型、消费者行为预测、互联网广告、社会媒体营销;擅长大数据统计建模及数据挖掘,精于归因模型、流失预警模型、社会网络分析等大数据商业模型;现负责百分点数据科学部管理工作。曾多次在INFORMS Marketing Science Conference等国际顶级学术会议上发表研究报告。

关于数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)

分享这篇文章到