feedback

意见

反馈

back-to-up

回到

顶部

数据“独角兽”是怎样炼成的 | 数据科学50人·崔晓波

崔晓波

· 数据科学50人

程一祥   05-24

如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家门又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的数据科学顶尖专家,了解这些神奇的人和他们的神秘事儿,带你们一窥数据科学的未来与未知。

2010年,崔晓波和几个朋友来到地坛公园,一边晒太阳,一边讨论“创业”的事儿。

在这次创业之前,他身份很多元:包括黑客、程序员、连续创业者、国企处长、技术总监等等;在此之后,崔晓波用了七年的时间探索数据科学的商业道路,并成功打造了一个基于移动大数据分析的“独角兽”公司。

代号为“CXB”的“病毒少年”

与很多数据科学家的起点一样,崔晓波的数据之路也是从学生时代的计算机生涯开始的。

1993年,崔晓波考入了南开大学信管专业。中国九十年代的计算机大多还处于英特尔286、386的芯片时代,操作系统还是原始的OS2、DOS等,漏洞和Bug很多。当时与操作系统最直接相关的就是病毒了。很多学生为了完善操作系统的缺陷,开始研究病毒,进行一些“病毒攻防战”,比如第一代大麻病毒、小球病毒、变性病毒等。

国内第一代的程序员们,大多都是从“病毒”做起,崔晓波也是其中之一。

(图片说明:崔晓波在北京办公室接受DT君专访)

崔晓波回忆说,当时在他们系里,一个计算机学生的最高荣誉,就是能够被选中去“管理机房”。当时机房的管理团队都是学校最一流的计算机高手,他们为了保护机房的电脑,设置了很多高级的加密算法,让普通学生无法实现修改、删除计算机文件等。

然而过了一段时间,机房的管理人员发现有人绕过了他们的保护,在系统里留下了一段“CXB”的字符,颇有“到此一游”的意思,这说明有人破解了机房的加密算法。“于是他们就不断提高自己的加密算法难度,我就不断接着去破解,这种攻防战是最费脑筋的,但是也最有意思”。崔晓波回忆起当年的“病毒”攻防生涯,依然津津乐道。

管理机房的同学发现每次升级,都无法阻止“CXB”这段字符出现在系统里。这个代号的实际意义并不难猜,很快,学长们就找到了崔晓波。凭借这个“病毒绝活”,他被邀请加入了机房的管理团队。

在大学里研究“病毒”的时候,崔晓波逐渐结识了王江民、求伯君、吴晓军等中国最早的一批著名程序员们。其中,王江民的江民公司曾经发布了KV系列等中国最早的杀毒软件,是中国计算机软件领域的先行者。

一个有意思的小插曲是,早在90年代,崔晓波曾经就使用了一个数据科学的模型方法,破解了一款当时号称“无法破解”的杀毒软件:江民KV3000。只不过当时,他还没有意识到自己使用的就是数据科学的方法。

“KV3000中设置了大量的反跟踪陷阱,的确非常复杂,很难破译。”崔晓波回忆说,当时KV3000出来后,四个月都没有出现盗版,足以说明其复杂性。后来,崔晓波使用了一个模型的方法,恰好可以绕开那些逻辑陷阱,成功地进行了破解。

“我每破解完一个软件,就会取一个名字。我当时把破解了的KV3000取名为KK13。几天之后我去逛街,发现有人说KV3000被破解了!我很兴奋,赶紧买了一个回来,结果看到名字是KK13。特别搞笑。”崔晓波笑着说。

由于在计算机系统上出色的表现,崔晓波刚毕业就被吴晓军(注:晓军电脑创始人,其发明的2.13汉卡是中国最早的汉字系统之一。)挖到了一家国企任职。

为了“务实”而来,为了“理想”离开

九十年代末是中国第一波互联网浪潮兴起的原点。腾讯、阿里、新浪、网易等这些后来的互联网大佬多是从98、99年开始起家,打造自己的互联网商业帝国。

而在太平洋的另一岸,美国的互联网也在经历着历史上最明媚的春天。这也吸引了很多优秀的中国程序员前去学习深造,寻找机会。

毕业了的崔晓波当时并没有考虑太多这些所谓的大趋势,来自新疆的他想法很实在——得先能在北京站住脚。“所以我就问了吴晓军两个问题:能解决北京户口么?能解决住房么?吴晓军说可以,我就来到了这家国企。当时真的没有考虑太多,直到进来才发现,这是一个卖农药和化肥的农产品公司,和数据、互联网几乎没什么关系。”

在那家公司里,崔晓波更多是被看成一个“修电脑的”,而不是什么互联网人才,这让一直很要强的他产生了一种强烈“要做事”的冲动。

“我当时看到了电子商务的可能性,于是就给领导写了一个关于创办农资交易网可行性报告。”虽然没太明白他要做什么,但是领导还是对崔晓波的想法提出了精神上的鼓励,以及物质上的“不支持”——只可以用公司的名头。于是,崔晓波就只能开始全部自己来。他为了创办农资交易网站,写了人生第一份BP(商业计划书),然后找融资、谈担保、拉货源等等。“最后还真在网站上卖出了一吨化肥!”崔晓波兴奋地回忆说。

后来他还牵头做了中国彩票网、中国企业网、棉花的交易系统等项目,是地地道道的连续创业者。这些项目大多取得了不错的效果——二十多岁的他那时已经成为系统内最年轻的处长,处理过上千万的投资交易,管理过几家不同类型的公司,从某种角度来说,他已经取得了世俗意义上的成功。

但这时他心中“理想主义”火苗却又在跳动了,最终,崔晓波还是选择了离开。国企体制化的环境与互联网“野蛮生长”的基因有着天然的冲突——“我觉得我不能一辈子呆在国企。”

崔晓波的离职当时还引起了一阵审计风波,因为大家不相信会有人放弃这么好的工作环境和待遇,去做其他的事情。他回忆当初的情景时说到:“领导当时还打趣说:‘小崔你是不是经济上有问题,你要老实交代啊’。”其实他当时只是觉得互联网和数据能做更多的事情,而自己不该局限于此。

离开国企后,崔晓波自降2/3的薪水,来到BEA System软件公司从头开始,一路从底层的合同工做起,到正式员工、管理岗,最后做到总监。BEA在2008年被Oracle收购,崔晓波也顺理成章地进入了Oracle。

这段外企的工作经历让崔晓波对现代的经营企业有了更多的认识。用崔晓波的话说,BEA教会了他如何运营一个创业团队,在Oracle则领悟到了如何把业务做大的秘诀。

一转眼到了2010年,已经在IT届摸爬滚打多年的他,再次逐渐开始思考创业的可能性。

理想主义的选择

那时的崔晓波已经35岁了,是Oracle大中华区A&C部门技术总监,在外企过着光鲜平稳的金领生活。不过,这份平静很快就被一块叫做“数据”的石子打破,并在以后的时间里不断地在他的生命中泛起波澜。

关于这次脱产创业,崔晓波一开始并没有想太多。他从自己过往的经历中,觉得看到了一个未来可能的新趋势——数据,于是认为自己应该去做这件事儿。

他们在创业初期讨论的话题非常理想主义,甚至“不接地气”。不谈市场、不聊客户、不提需求等一切商业的基本元素,崔晓波每天就只思考一个问题:做数据到最后,究竟是在做什么?

这有点像创业者版本的“人生三问”(虽然简化成了一个问题):我是谁?我从哪里来?我要到哪里去?——在崔晓波创业初期, 这种终极的创业哲学问题是最让崔晓波最操心的事情。某种程度上,这源自于崔晓波自己性格中对于理想主义的偏好。

在崔晓波职业生涯的几次选择中,每当现实与内心想法产生冲突的时候,他总会选择“唯心”一把。从开始做数据到现在,他会经常说到一种“数据信仰”,几乎把这种唯心式偏好发挥到了极致。

不过,如果你把自己还原到2010年的场景中,你会自然地感觉这种天马行空讨论,并不会有什么结果。彼时,“数据科学”在国内还不是一种显学,没有多少人留意它;互联网世界还集中在Web端的流量争抢中,3Q大战激战正酣;Nokia的功能机依然在手机市场上独霸天下,占据着中国市场将近50%的市场份额。

但是程序员出身的崔晓波,让他在当时对数据行业做了两个非常“务实”的判断:第一,手机将不再只限于通话;第二,数据将在移动互联网端产生爆发。

数据“独角兽”

“2008年的时候,我曾经有一次加入腾讯的机会。Pony(马化腾)当时跟我说了一句话,我印象非常深,虽然那个时候腾讯还没有如今这么大的规模,但他坚信:腾讯未来将改变人们的通信方式。”

崔晓波深以为然。虽然听起来有点俗套,但他认为伟大的企业普遍都有一个宏远的愿景。他从“数据分析”这个核心商业点出发,最后为公司定下了两个愿景:数据改变企业决策,数据改善人类生活。他认为未来企业的决策方式一定会从“经验性地拍脑袋”,转变为“科学地看数据”,而且未来人类的生活,都将会因为数据而发生深刻的改变。

不过理想很丰满,现实却很骨感。在创业的几年中,为了应对不断变化的市场环境,崔晓波也带领着公司几度改变业务方向。

覆盖手机端的移动互联网大数据分析是崔晓波的起点。从最开始的数据分析工具、到后来企业级的定制化数据服务,再到聚焦于几个垂直行业,做数据产品(数据集、数据模型和数据应用)。如今,TalkingData的月活跃用户已经突破了7亿,服务超过12万款移动应用以及10万多应用开发者,如今已经成为国内领先的第三方数据智能服务商。

如果仅仅是做数据分析,崔晓波并不是最早的一批先行者。百度等一批手握流量的企业其实早就开始了这方面的业务探索,但是很多公司为了流量和短期的变现,逐渐将数据分析与营销、广告等业务打包在一起,很难发挥出数据分析的客观性价值。于是崔晓波决定从侧面切入——“专注地做数据”。不推销、不打包,坚持第三方独立,崔晓波选择的落脚点,为自己的业务积累下了一批批忠实客户和良好的业界口碑。

“刚开始有些客户不相信,但是他们观察了两年后,发现我们真是这样,只专注于数据这一件事儿,不参与其他推广活动。有些客户的业务,也真的因为引入了数据分析而实现了快速增长,例如游戏、金融等行业。”

后来,当业务高速发展的时候,他们也走过一些弯路,比如布局DSP广告(Demand-Side Platform,需求方平台)。“我们花了很大的精力和财力投入到DSP广告的业务上,希望帮助广告主优化广告效果,但是忙活了很久都没有什么效果。”崔晓波最后认识到,这是因为国内的广告流量数据被污染得非常严重,以至于无法进行有效分析预测。平台主并不希望让自己的流量公开透明,从而影响财路,这使得整个行业的保护主义盛行。这也让崔晓波意识到第三方平台的局限性——如果平台的数据不真实,那么流量分析就是没有价值的。

创业初期,崔晓波的公司基本模仿了BEA时期的创业模式,非常高效;后来随着规模的扩大,他逐渐将在Oracle时期学到的渠道管理方法,移植了进来,通过打造数据生态的方式,拓展自己的数据源,优化产品和服务。

到2017年,他的公司以超过10亿美元的估值成长为国内数据分析领域领先的“独角兽”企业。

以人为本的数据科学

2016年AlphaGo与李世石的围棋大战,可以称得上是数据科学世界的里程碑事件。由于这次比赛后,AI(人工智能)话题开始发生井喷式的增长,正式引发了2017年全球的AI产业热潮。

作为业余围棋五段选手,崔晓波和聂卫平老先生一起解说了李世石与AlphaGo当年的第三场比赛。“看完第三场后的第一感受就是绝望”,崔晓波说,“人类最好的棋手,在AI面前一点机会都没有,AI一步都不会下错。”

(图片说明:AlphaGo大战李世乭;图片来源:纪录片《AlphaGo》电影截图)

崔晓波认为,AlphaGo当时所展示出的AI技能主要在三个方面:价值网络、策略网络和蒙特卡洛搜索树搜索,其中蒙特卡洛树搜索是这次AI浪潮的核心。但是经历了一年多的发展,AI在其他行业的应用,并没有向人展示出类似在围棋领域足够的震撼。崔晓波说;“AI的本质只有一个,就是帮人做决定,但是除了在特定的诸如围棋等领域,AI还不能够达到比人更好的决策水平。”

所以,与其研究AI如何帮人做决定,崔晓波认为当下更实际的是,不如利用数据科学研究“人”本身究竟是如何做决定的。他受到MIT的人类动力实验室的启发,在公司成立了一个“人本实验室”,把数据科学与社会学、心理学等人文科学结合起来,研究人心里的内在动机和社会行为。

“目前,大部分商业数据公司主要是通过数据,观察人的活动行为,进而判断人的特点,作出相应的商业决策,并不关心人心理做决策的真正原因和动机。”崔晓波认为,人本实验室就是为了弥补这一点,让数据科学更加“以人为本”。“在数据时代,人的心智也在发生急剧的变化,这是我们做这个实验室的初衷”,崔晓波说到。

2017年底,崔晓波的人本实验室团队,用机器学习等数据科学的方法,重新对北京城市的人群做了一次分类。由于工业化和城市化的影响,传统的城市人群会根据阶层划分,在城市中形成多个中心化的网络布局,例如北京的金融街、CBD、某某学区等,这直接影响了城市规划和资源分配方式。

当崔晓波用时空大数据重新观察北京的人群时,他发现了一种基于时空折叠的新的分类方法。由于人们的作息时间、生活方式不同,有些传统意义上应该是某一阶层的人群,其实在生活中完全没有交集——他们都在国贸出现,但是永远碰不到——这就会让一个城市缺乏活力,影响资源的分配效益。数据科学给出了七种人群划分,然后,他们再用社会科学的方法去解读、验证它。

只有了解数据,又了解人的行为模式和动机,才能够进行更好的用数据改善人类生活。这可能是未来数据科学,离我们普通人最近的样子。

在采访的最后,崔晓波总结自己,是一个数据科学领域里“务实的理想主义者”。这听起来有点矛盾,不过,纵观他的职业生涯,他对人对事总是“很实在”,对自己对未来却又充满“理想”。在虚实之间,他似乎总能找到一种奇妙的平衡状态,践行着自己的数据科学之道。

数据侠门派

崔晓波,北京腾云天下科技有限公司(TalkingData)创始人&CEO。崔晓波毕业于南开大学,曾先后担任BEA亚太区电信技术中心总监和Oracle大中国区A&C技术总监。2011年,创立了TalkingData,将“数据改变企业决策,数据改善人类生活”作为公司愿景,践行“一切用数据说话”的原则,通过数据帮助客户实现一切可实现的价值,成为客户信赖的长期合作伙伴。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

分享这篇文章到