feedback

意见

反馈

back-to-up

回到

顶部

最好的数据科学家,就是把自己给“干掉” | 数据科学50人·丁磊

数据科学50人

· 丁磊

程一祥   06-17

丁磊,前百度金融首席数据科学家,曾担任 PayPal 全球消费者数据科学部负责人。其在PayPal 领导建立了平台级人工智能系统,实现了AI(人工智能)在商业场景中的规模化应用。

在不到两个月前,百度旗下金融服务事业群“度小满”,成功融资 19 亿美元,成为金融业务领域的新“独角兽”企业。这一成绩被李彦宏评价为:“百度AI 战略的里程碑事件”。

作为成立仅两年多的部门,百度金融独角兽业绩的背后,被普遍认为是源于其“ AI 平台”战略的支持。丁磊是百度金融的前首席数据科学家,在职期间,他主导了多项基于“AI平台”的金融科技项目,见证了百度金融迅速崛起的过程。

对于已经在AI行业中浸染多年的丁磊来说,这已经不是他第一次利用“AI平台”,实现商业业绩的规模化增长了。在他看来,将 AI 等数据科学的方法,与实际场景相融合,带动业绩的翻升,早已不是新鲜事。在 2013 年,他就已经在美国领导 PayPal 团队,成功建设了 AI 平台,带动了 PayPal 的业务增长。

不追热点,不讲泡沫,用他自己的话说:“我对于数据科学的信心来自于真正的赋能”。

那么数据科学究竟能带来怎样的赋能呢?

成倍的客户增长

丁磊是 PayPal 2012 年成立数据科学部门时的创始数据科学家之一。

彼时,是数据科学概念兴起的前夜:移动互联网的繁荣让B端积累起了大量的数据,计算机芯片的进步和Hadoop等大数据框架让处理海量数据变得现实可行;与此同时,在学界已经积累多年的机器学习等算法模型,也终于开始在业界有了用武之地;谷歌等硅谷公司开始大量招募数据科学人才......众多迹象都表明,这是一个数据科学即将在商业领域迸发的时刻。

在这样的背景下,PayPal 等硅谷的科技公司纷纷开始成立自己的数据科学部门,希望将数据科学的相关技术应用到实际业务中。

然而丁磊他们起初的实验并不顺利。折腾了一年,PayPal 最开始的数据科学团队,并没有找到自己在商业世界中的位置。一年后,领队黯然离职。

“当时团队遇到的最大问题,是数据科学在公司的落地”,丁磊回忆道,“就是没有做下去。”

虽然第一年出现了一些波折,但 PayPal 在数据科学上的战略方向并没有改变。丁磊这时候“临危受命”,重新组建了新的团队——PayPal 消费者数据科学部。

(图片说明:PayPal 是全球最遍布范围最广的第三方支付平台之一,目前市值超过千亿美元;图片来源:Flicker,Kimberly Blessing

在他看来,之前落地失败的原因主要有两个:一方面是商业与数据科学本身的割裂,“也就是所数据科学带来的收益不能立刻就在商业中体现出来”;另一方面是数据科学的研究没有产品化,单个项目的成本过高。

“如果一个合作伙伴过来,需要一个产品营销方案,你从提数据、建模、验证、迭代......传统的数据科学流程可能需要至少一个月的时间”,丁磊说道。单个项目的复杂流程限制了数据科学业务的规模化,高昂的人力和时间成本也在制约着这支团队的发展。

丁磊想到的解决方法是,建立公司内部的“数据科学平台”,让数据科学能够工程化、产品化、规模化地服务现代商业项目。

“数据科学平台”是一个统称,它相当于一个大框架,囊括了海量数据分析、机器学习、深度学习、数据可视化和智能决策等诸多技术领域。在设计这个平台的时候,丁磊的最终目的是希望它能实现对商业项目的部分自动化决策,所以也称其为“AI(人工智能)平台”。

幸运的是,丁磊的想法成功了。

PayPal 用了两年的时间成功建立了自己的 AI 平台。这个平台主要有基于 AI 的动机引擎、推荐引擎、以及优化客户生命周期的 Next Best Action 引擎构成,而这几个引擎均部署在基于 Hadoop 和 Spark 的大数据平台之上,能够跟海量的底层数据衔接,面对需求能够自动地提出解决方案。

凭借这个项目,丁磊成功实现了AI的工程化商业落地。到现在,这都是一项非常领先的 AI 业务创新案例。这个平台为 PayPal 带来了成倍的客户增长,并且至今仍在使用。

之后,PayPal 的业绩也出现了飞速的提升。“营销活动平均响应率提升了 2-3 倍,某些营销活动的点击率和兑现率超过5倍,总体ROI也得到大幅提升”,丁磊说道。

2014 年底 PayPal 实现了19.4亿美元的利润,比 2012 年底提升了近 30%。到 2015 年,利润甚至超过了母公司 eBay。随后 PayPal 从 eBay 剥离单独上市,至今市值已经增长了 1.25 倍,超过千亿美元。

丁磊的这套 AI 平台系统也并不是什么“新事物”,他与 AI 的缘分,其实早在十几年前就开始了。

从0到1的数据科学家

“我在高中的时候就想做 AI 了。”

虽然听起来有些不可思议,但当丁磊还是一个高中生时,他就非常清楚自己未来的发展方向了。丁磊说,这是源于自己对机器人的喜爱。

但是当时国内高校并没有开设“人工智能”的相关专业,“那我就选择一个离AI最近的专业,当时就是计算机了。”高中毕业后,丁磊被保送进入浙江大学计算机学院。一入学他就主动寻找研究 AI 方向的导师,目的非常明确,就是要学 AI。

在这个当年非常小众的专业方向里,丁磊却学得不亦乐乎。他跟随导师研究自然语言处理中的文本分类问题,在本科阶段就发表了一篇国内核心期刊的论文。

(图片说明:丁磊应邀在MIT技术大会讨论人工智能应用;图片来源:丁磊)

本科毕业后,他来到美国继续深造博士学位,研究方向为机器学习和计算机视觉。如果从AI发展的曲线来看,在丁磊求学的很长一段时间里,AI 都处于“第二春”破灭后的低谷期,发paper难、商业应用难、普遍不看好等等都是常见现象。但在整个学生时代,丁磊的求学都非常积极主动,在自己认定了AI的方向后,他从来就没有过任何犹豫。

这些年在他身边,门户网站、社交网络、移动互联网等科技热浪一浪高过一浪,但是他始终沉浸在自己的AI世界里。“我喜欢把看过的论文都叠放在一起,等到博士毕业的时候,叠放的论文有差不多一人高吧。”丁磊说道。直到 2006 年,随着训练高层神经网络算法的出现,以及计算技术的持续进步,AI的研究进入第三春,拉开了这一轮人工智能高潮的序幕。

丁磊在美国读博的时候,曾在 IBM Watson 有过一段工作经历,那是他第一次与 AI 进行商业化接触。

“那是 2009 年,我有机会去 IBM 参与其智慧零售项目的计算机视觉部分”,丁磊回忆道。当时IBM 已经将这个项目成功落地在了 Tesco 等超市,一定程度上实现了无人零售的职能,这比阿里巴巴等中国的智慧零售项目要早了将近十年。

作为 AI 商业化概念的先行者,IBM 的 Watson 产品让丁磊积累了很多让AI与产业相结合的宝贵经验,还申请了四项研究专利。这也让他逐渐萌生了从学界转入业界的想法。

2011 年丁磊来到纽约后,加入了一家知名风投旗下的创业公司担任数据科学家,正式转入产业界。他的第一份工作是利用 AI 技术为 Expedia (全球最大的旅游类电商网站)构建用户行为预测引擎,优化用户体验的同时,大幅提升广告投放效果。

“因为有很多用户是网站访客,没有注册信息,很难追踪他们的行为,这让我们模型的预测过程难度很大。”不过丁磊他们最后设计的模型可以通过理解细微的行为信号,判断访客的真正意图,上线后效果非常好,大幅提升了公司的营收。这也让丁磊坚定了自己对AI商业化的判断。后来他加入了 PayPal,希望在更大的平台上一展身手,于是就有了前文那套“AI平台”。

与商业的“水乳交融”

丁磊认为,数据科学分为三个阶段:1.0 的时候是简单的事后数据分析,例如报表等;2.0 则是利用更为完备的查询工具和统计方法,辅助业务决策;到 3.0 的时候,就是通过 AI、大数据等方法进行预测分析,进而直接做出决策,也就是现在的 AI 时代。

AI的商业化应用无非分为两个方面:感知和决策。在学院派阶段,丁磊的重点集中在感知层面,包括计算机视觉、听觉、自然语言处理等,这些考验更多的是他的科学研究能力。到了商业环境中,效率至上的文化要求数据科学家有更强的业务理解和工程能力,这是丁磊进入业界后发生的一个重要转变。在他看来,一个数据科学家只有同时具备了:科学、工程和商业三方面的能力,才能释放 AI 的商业潜力。

不过话虽说的好听,但随着时间的发展,越来越多的 AI 鼓吹者们也开始发现,AI 的商业化之路并不好走。不久前,作为 AI 商业化领域的先驱,IBM Watson 突然爆出健康部门将会裁员50%-70%的消息,为 AI 的前景蒙上了一层阴影。

(图片说明:根据科技媒体 The Register 报道,IBM Watson 健康部门在今年五月底曾爆出大规模裁员消息,为 AI 的商业化前景蒙上了一层阴影;图片来源:The Register 网站截图)

“AI 的落地,是商业化过程中的最本质问题。”丁磊说道。“Watson 的问题,除了有大公司僵化的管理制度外,另一方面更重要的是,医疗 AI 落地有个大问题就是收费方式不明确:AI 提供了服务后谁来买单呢?这在全世界都是一个难题。”

在 PayPal 时期,丁磊之前的数据科学团队也正是受困于落地的难题,而无法有效让AI和商业融合起来。在总结了前人的教训后,丁磊提出 “AI 平台”策略,他把这个过程称为“运营化的数据科学”——融合数据、算法、算力和商业模式四个要素,通过高效的运营方法,让数据科学成为产品,达到规模化效应。

“之前有一个美国大型零售商找到我们,说想要帮他们找到一百万优质的客户来投放优惠券。用传统的数据科学方法,收集数据、建模、调试等估计要花一个月,但是在AI 平台上,不到一天就可以给到他们靠谱的结果。”丁磊说道,AI 平台实际上实现了 AI 项目的工程化和产品化的过程,人类数据科学家只不过需要在其结果中稍加调整即可。

这其中,最难的技术问题不是高深的算法,而是如何将对业务的理解,融合进模型层面。“要达到一个技术和业务水乳交融的状态。例如你如何把一个数据科学家为某个零售商家建立的业务模型,个性化地推广到所有零售项目中?”丁磊说到,这就不仅仅是机器学习等技术能够解决的了,需要更有业务经验的“数据科学家”。

换句话说,AI 平台就像给机械化的工厂装上了一个“大脑”,在保持高生产效率的情况下,还能千人千面地提供个性化的产品服务,这就是 AI 的自动化。“最好的数据科学家,最后就是(发明一个 AI 产品)把自己给‘干掉’”,丁磊笑着说。

优秀的 AI 产品不会依赖于某个数据科学家本身,在离开了 PayPal 多年后,丁磊介绍,自己领导建立的那套 AI 平台依然在不断更新,发挥着重要作用。

“大家AI,才是真的AI”

2015 年,丁磊选择回到中国发展。国内日新月异的数据科学环境,让他看到了更广阔的市场前景。

他首先选择了自己更熟悉的金融科技领域,加入了百度金融。他曾参与领导了百度金融与中国农业银行的“金融大脑”项目,在客户画像、精准营销、信用评价、风险监控、智能投顾、智能客服等方面为农行提供AI服务。

这是丁磊的又一次 “AI 平台” 实验,同样取得了不俗的业绩表现。在他看来,如今在中国的产业领域,虽然以AI为卖点的公司越来越多,但只有 BAT 等头部公司,一定程度上真正做到了 AI 的平台化应用,大量的行业公司还没有建立起这套业务体系。

不过也不是所有领域都适合使用 AI,在丁磊看来,满足大规模落地商业化 AI,需要具备两个先决条件。首先是数据的积累,数据的数量和质量直接决定了AI发展基础是否牢固。AI 平台的底层是数据,数据的流通和更新直接影响着上层机器学习、图像语音处理等技术的使用效果。其次,就是所在领域的商业问题是否清晰,如果问题不够明确,也很难用AI来处理。

在所有领域中,金融科技最符合这两点要求,AI 平台也最早在此落地。不过,随着互联网技术的发展,数据科学等概念已经逐渐在其他领域开始普及,越来越多的开始讨论 AI,了解数据科学的价值。

“觉得一下子就被人理解了。”丁磊笑着说,当他十年前义无反顾地钻进 AI 的世界时,那还只是一个不被看好的小众领域,十年过后,它却已经变成了大家小巷的热点谈资了,仿佛一眨眼,就“换了人间”。

在丁磊看来,AI 的商业化应用范围非常广,如今的中国市场就像一块等待开垦的处女地。

丁磊为 AI 绘制了一份商业版图,“如果横轴是行业,纵轴是职能,AI 现在只是填充了其中非常小的一部分。”

(图片说明:AI 商业化的“处女地”示意图)

在这个版图中,零售、金融、制造、医疗、教育等是横轴,代表不同的行业领域;营销、风控、客服、安全等是纵轴,代表不同的职能方向。二者共同构成了一个二维商业矩阵。对于每个行业中的相关职能,AI 都可以探索相关应用场景。

“以后的行业要变成 AI inside (AI 驱动,这个说法是相较于之前的 Intel Inside,芯片驱动)。AI 会成为行业的决策引擎,取代的是在战术层面上需要人工干预的场景,AI 能够持续有效地让企业在最佳状态下运行”,丁磊说道,“而且AI带来的效果不仅是‘优化’,而是革命性的、成倍数的增长,这才是AI的能力,真正为行业赋能。”

数据侠门派

丁磊,美国俄亥俄州立大学计算机系博士,前百度金融首席数据科学家,曾在美国担任跨国公司 PayPal Inc.的全球消费者数据科学部门负责人,领导建立了服务全球数亿用户和数百万商家的人工智能平台。并曾在哥伦比亚大学和 IBM Watson 研究院工作,具有在人工智能、数据科学、金融等领域十多年的从业经验,在 IEEE 会刊和顶级学术会议等发表高质量论文逾 20 篇,获得美国专利 4 项,担任 20 多个权威国际期刊和专业会议的特约审稿人或委员会成员,并拥有斯坦福大学的高级项目管理证书。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

 

 

分享这篇文章到