feedback

意见

反馈

back-to-up

回到

顶部

用数学思维,打破数据悖论 | 数据科学50人·吴明辉

数据科学50人

· 吴明辉

程一祥   08-14

吴明辉,明略数据、秒针系统创始人兼董事长,本科毕业于北京大学数学学院,北京大学人工智能实验室硕士。他从事软件工程开发和算法研究近二十年,是国内企业级服务领域里全能型企业家。他所创办的秒针和明略两家大数据公司,都已经成长为中国数据科学领域的独角兽企业。

“我的观点是:用数据做生意,是一个悖论。”

说这句话的人,叫做吴明辉,他是两家数据公司——明略、秒针的创始人,而且在他的带领下,两家都成长为了中国数据界的独角兽级企业。

为什么一个做数据生意的“成功者”,会说用数据做生意是一个悖论呢?悖论之下,他又是怎么看待“数据”和“生意”这两件事儿的呢?

也许接下来你所听到的观点,可能与传统的数据故事有点“不一样”,但是如果你了解吴明辉,了解了他对数据的看法,我想,你对于数据科学的认知,也会有点“不一样”的改变。

流动,才是悖论的最优解

“我觉得数据和生意这两个事从概念上就是矛盾的,数据是解决信息不对称的,生意本质是什么?是利用信息的不对称。”在数据行业探索了近二十余载后,这是吴明辉思考“数据生意”这件事儿得到的答案。

就像历史上的历次科学革命一样,最近十年在全球范围内兴起的数据科学浪潮,催生了一大批以数据为主题的企业和“弄潮儿”。他们在硅谷、在北京成立起一家又一家创业公司,期待乘着数据科学的春风,在这个新市场上抢占先机。

但是人们也逐渐发现,数据的生意并不好做。什么是数据?数据生意的本质是什么?很多人并没有搞清楚这些基本问题,就匆匆涉足数据科学,最后的结果也只能是不了了之。那么,做数据生意的价值究竟是什么呢?

在吴明辉看来,首先数据本身并没有价值,它只是对客观世界的记录。

(图片说明:从地球可以清晰地看到绚丽的星空;图片来源:吴明辉

“今年春节我去了新西兰,中间有一站到了美丽的特卡波湖,这是全世界最有名的观星地点。这里几乎没有什么光污染,随便一个单反相机,只要曝光时间长一点就能拍出清晰的银河系。”

吴明辉说,他在看到一闪一闪的星空时,就联想到了数据。其实人类对天体物理的研究,正是现代数据科学最早的起源。“我就想,古人花很多时间和精力去研究星星,价值是什么?”

天文学家开普勒提出了行星运动的三大定律,奠定了现代宇宙理论的基础。开普勒的成就并非自己一个人的功劳,他能做到这些,是因为很幸运地得到了著名丹麦天文学家第谷·布拉赫,20多年所观察与收集的精确天文数据。

开普勒虽然没有直接观察到这些数据,但是他站在第谷的肩膀上,利用数据发现了宇宙的运行规律,解决了行星和人类间信息不对称的关系,为人类了解宇宙创造了价值。

这启发了吴明辉,他认识到,数据的价值,就在于帮助那些没有“观察”的人,解决信息不对称的问题。

但数据和生意的悖论又该如何解决呢?关键在于两个字——变化。

众所周知,商业是利用信息不对称盈利的活动。在吴明辉看来,商业中的信息不对称有两种:一种是一次性的信息不对称,一种则是持续变化的信息不对称。

“什么叫一次性信息不对称?有人说某个股票要涨,这是一次性的信息不对称,这是不好做生意的,只有自己闷声发大财。另一种是流动的信息不对称,这才是有机会做生意的,因为这个事儿每天都在发生变化”,吴明辉说到。数据就是帮助人们缩短自己与变化中信息的不对称关系。

他举了一个零售选址的例子。很多人觉得零售选址是个一次性的信息不对称活动,假如一个商家要开快餐店,选好了地点开业后,这个选址的行为就结束了。而且,在选址领域,麦当劳、星巴克等国际连锁的大公司,已经把方案都研究透了,很多人觉得这个场景没有做数据生意的机会。

(图片说明:很多便利店的选址并非一次性工作,而是随着时间而不断变化流动的过程,图为上海某全家便利店;图片来源:Wiki Common)

但后来,他发现实际情况并非如此。“我们有一个客户是中国最大的便利店集团,有一万家店,每年都要开几千家店,但同时又都要关几千家。他要不停地选,因为今天选择了一个好地方,明天不一定好。比如今天在这里开一个7-11,明天突然旁边有人又来开了一个物美,你的客流就被抢走一半。因为你周围的环境在不停变化的,这件事情就变成一个流动的信息不对称问题了,它是有商机的。”

当场景随着时间不断地发生变化,信息不对称的情况就总会出现,数据生意也就产生了商业价值,这也就从根本上解决了数据和生意的矛盾——信息是不断变化的,而数据的生意就是追赶人们与这段变化的距离。

吴明辉对数据和商业世界的认知,大多源自他在求学时对数学的探索。是数学塑造了他对问题刨根问底的精神,让他能更深刻地理解数据的意义。

一切都从数学开始

吴明辉说,自己小时候的梦想,是成为一名数学家。

“我从小对数学有一种特别的感觉,大家都觉得数学很难很枯燥,我不觉得,我认为在数学里探索那些严密的逻辑,把现实世界用公式抽象出来,很有意思,而且很美。”吴明辉形容自己在学生时代,对数学的感情是“近乎痴迷”的状态,喜欢数学的简洁、优美。

“而且,数学是非常接近哲学的一个学科。”它会促使吴明辉不断地去思考一些最根本的问题,无形中,培养了他的思维和追求极致的性格。

他从小就是父母老师眼中“别人家的孩子”,在学校的成绩始终名列前茅。千禧年,他凭借全国奥利匹克竞赛获得了大学保送的资格,真的遇到了选清华还是选北大的问题。“当时我们的竞赛领队跟我说:‘把数学的基础打牢了,将来做什么都可以’。于是我就选择了全国最好的北大数学学院,现在回过头来看,真的很感谢当年的选择。”

在北大数学系,《高等代数》《解析几何》以及《数学分析》是吴明辉大一时必修的三门课程。这是数学中最基础的三门课,分别讲了时间、空间和变化的概念,而这也是数学研究的三大主要领域。

“《高等代数》就是算数,算数是怎么来的呢?其实最开始是为了算时间。看太阳什么时候升起落下,看月相阴晴圆缺;《解析几何》是为了算空间、位置;而《数学分析》就是研究函数和函数的变化,核心是变化。这就是数学。”

这些数学的思维理念一直伴随着吴明辉,他所思考的“变化是数据生意悖论的解法”等问题,都深深地收到了自己数学思维的影响。

(图片说明:左、右分别为中国青年数学家恽之玮和张伟,他们在科学突破奖颁奖典礼上获得了“数学新视野奖”;图片来源:北京大学新闻网

2000级的北大数学学院出了很多天才型的数学家,比如恽之伟和张伟。他们去年获得了有着“科学界奥斯卡”之称的“数学新视野奖”,以及仅次于菲尔兹奖的“拉马努金奖”,是数学界冉冉升起的青年科学家。吴明辉跟他们当年是同学,不过与他们不同的是,大学阶段的吴明辉除了数学外,一直还是一个“斜杠青年”,他还同时在研究计算机,而且比起数学,他逐渐觉得自己更喜欢编程这种创造性更强的工作。

“我从初二开始接触编程,当时参加奥林匹克竞赛,数学、物理、化学、计算机,每一科我都参加了,成绩都在前几名,最后数学成绩最好而被保送北大。”吴明辉说,有一次学校举办数学建模,他想找恽之伟组队,就对他说:“恽之伟,你数学最好,我编程最好,咱俩组个队吧,就天下无敌了。”

结果恽之伟语重心长地对他说:“明辉同学,我们学数学不是用来做应用的。”这让吴明辉意识到数学家们令人真正尊敬的地方。吴明辉后来感慨道,“真正的理论数学是离商业非常遥远的”,数学家们的脑海中想的不是应用,而是星辰大海。

虽然数学的思想非常吸引吴明辉,但他觉得自己还是更喜欢计算机等偏重应用的学科。在本科阶段,他就开始了自己的创业生涯。“其实我当时主要想自己赚点生活费,”吴明辉说,他一开始做软件外包,到后来连新浪、搜狐等大公司都成了他的客户,他还帮清华北大的写了很多教学管理系统。

“然后生意越做越大,我想要不干脆就成立个公司吧!于是就成立了一个公司,我做CEO。”吴明辉说到,从数学转向商业的事儿,就这么误打误撞地做起来了。

创造信任,是数据最重要的价值之一

本科毕业后,吴明辉进入北大人工智能实验室继续深造,他当时的研究方向是图像处理和掌纹识别。与数学学院不同,人工智能实验室是建立在北大的计算机学院下面,吴明辉的研究也基本都转向了应用领域。

从2005年开始,中国互联网迎来了一波野蛮生长的黄金时期。中国网民数量超过了1亿并且仍在飞速上涨,盛大、前程无忧、携程、腾讯等十多家互联网公司在海外上市,让人们看到了互联网的商业价值。

吴明辉也看到了这股风潮,在学校读研究生的同时,他还运营着自己的公司。对于吴明辉来说,选择投身互联网科技行业,已经是早晚要做的事了。

“当时,我们团队是做人工智能算法的,旁边是天网搜索引擎实验室。所以我的团队里有做AI的同学、有做搜索的同学,还有数学系的同学,我就想能不能把大家的核心优势集中起来”,吴明辉说。经过半年的思考和探索后,他最终选择了广告这个应用场景。

他一开始的想法是做广告的个性化推荐,“其实就是今日头条的原型”,吴明辉说到。但是他们遇到的第一个问题是没有数据,没有数据支持的算法怎么能推荐呢?于是他们就想到,可以写一个软件去互联网里采集数据。

吴明辉回忆说:“我们当时就做了一个数据软件,免费送给互联网公司,跟人家说你用我这个软件,我可以免费帮你分析流量数据,同时,这个数据我就拿到了。但发现他们都没人用,为什么呢?后来我们知道,他们都怕别人知道自己的真实流量数据。”

在当时的广告行业,数据流量造假是一个非常普遍的问题,这是一个典型的信息不对称行业。广告主并不知道自己广告投放平台的真实流量,互联网平台却收取了高额的广告费用。吴明辉说道,媒体流量造假其实并不新鲜,早在电视媒体的黄金年代,就频繁出现广告流量造假的灰黑产业,而根本问题就在于流量信息的不对称。

当时央视最大的收视率公司索福瑞,一年在中国的收入约10亿元;但围绕收视率做刷榜的黑色产业,一年则能收入40亿。

“这个收视率刷榜怎么做呢?污染样本户。央视索福瑞是通过抽样调查的方法来统计收视率的,一个城市比如说北京两千多万人口,抽样1000个家庭,平时看什么台统计一下,最后预测,整个北京市大家都在看什么台。造假怎么造呢?只要搞清楚这1000家在哪里就行了。然后到他家里说,我是某某卫视,如果你每天看我们台,我一年送你50斤花生油。很多样本户就这样被污染了,1000户里面影响50户就能让收视率上来5个点,他一年收入可能就能多10个亿。”吴明辉讲到。

这种现象在互联网时代则更加严重,因为互联网的出现让造假更容易了,每个平台的流量只有自己知道,对外造假的成本更加低廉。在灰黑产比数据生意本身还赚钱的时候,用数据去赚钱其实不是“赚钱”,而是破坏别人赚钱的机会。但造假行为本身,并不能创造任何价值。

(图片说明:吴明辉在第四次中国-以色列科技创新投资大会发言)

于是吴明辉他们就与传统的互联网媒体平台展开了一场激烈的“数据攻防战”。他们通过技术手段,不断把检测代码嵌入到互联网平台,想要收集平台的真实流量数据;另一方面,平台也在不断封锁他们的代码,极力维护自己流量数据的排他性。吴明辉说,整个08年一年,几乎都在与媒体PK,代码加了删,删了再加。

“后来我们发现,就连四大门户网站之一的某网站,真实流量也只有它宣传的十分之一,非常严重。”吴明辉回忆说,当时自己相当于是在用数据,挑战整个互联网媒体平台的权威,阻力之大可想而知。

2009年底,宝洁的出现为这场攻防战打破了僵局。作为老牌世界五百强企业,宝洁对数据运营和决策的理念非常认同,对吴明辉他们的检测服务效果很满意。于是,到了年底,它就跟所有合作平台提了要求:必须用吴明辉他们的产品来检测自己的广告投放效果,否则将不再合作。

一时间,以宝洁为代表的广告主们开始纷纷支持他。吴明辉的数据产品就像有一个“公平秤”,有了这杆秤,大家就会开始信任它。“信任太关键了,这就是数据创造的价值”,吴明辉说。

从本质上来说,吴明辉这次瞄准的数据生意,是把广告投放这件事从过去的一次性信息不对称,变成了流动性的信息不对称,从而取得了成功。因为有了流量检测后,只有更有创造力的广告、更具备内置内容的互联网平台才能够吸引流量,而这是一个流动变化的过程。客观上,这促进了广告和媒体行业的良性竞争,体现了数据生意的真正价值。

数据生意的“黄金法则”

“我想再说一下,数据本身是没有价值的,它的价值源自数据产品引发的后续行为的价值。”吴明辉强调,不仅在广告行业这么做,他第二次创业时候也是这么做的。

吴明辉第二次创业的时候,将目光集中在了安防领域。吴明辉说,第二次创业是受到了美国Palantir公司的启发。这家大数据公司在安防领域的表现十分出众,在美国政府抓捕并击毙本·拉登的行动中大放异彩,为人所熟知。

吴明辉的父亲曾经是一位警察,因此他非常了解警察的工作情况。中国是人均警力不足的国家之一,在北京上海等城市,一名民警通常要负责400-500名市民,而美国的警民比大约是1:200。吴明辉说,“一个正常的公安局破案研判的过程非常复杂,复杂的案子要一个月,有些更是一破要一年,因为实在是证据太多了,数据太多了,很多警察就看那个对帐单就看到眼花,经常都把几个药店的眼药水全买光了,就是这个水平,所以非常辛苦的。”

在数据行业积累了多年后,他想能不能用数据科学的方法,帮助警察把线索数据都关联起来,自动识别不同案件中的人、事、物、地点、组织等信息,通过人工智能的方式整理归纳,然后再交给警察做逻辑推理判断。

但是警务系统与互联网非常不同,这是一个具有极高保密级别且内部分散独立的数据系统。数据人员不仅需要很擅长数据处理分析,更需要一个从零开始搭建数据系统的能力。吴明辉说,自己在第二次创业伊始,最核心的价值就是有一支“作战经验”丰富的数据团队,能够处理大数据的各种问题,“当公安部门找到我们的时候,我们甚至还没有推出的自己的商业化产品,客户看中的其实是这支有着丰富实战经验的大数据团队。”吴明辉自豪地表示。

(图片说明:明略数据是吴明辉第二次创业的数据公司,图为针对安防推出的数据科学分析系统SCOPA)

后来,这支团队也果然没有让他失望。有一次,公安部门接到了一起凶杀案的报警电话,经过了几个月的调查,依然毫无进展。于是他们找到了吴明辉,希望通过数据分析案情线索,但他们很快发现,凶手所在的案发现场没有留下任何数据资料。

“整个的街道上的摄像头接近一半都没通电,要么就坏了,所以根本就没有视频数据。后来我们有查找一些卡口、电子眼等资料,发现犯罪嫌疑人反侦察能力很强,基本没有留下任何信息。”后来,他们通过数据对比,发现另一个城市的一起犯罪案件,与这次凶杀案有很多相似的地方,于是判断可能是同一个犯罪嫌疑人所为。

通过另一起案件的线索,最终他们帮助公安部门成功将犯罪嫌疑人缉拿归案。这种案件与案件之间的数据关联性分析,是吴明辉团队在安防领域的特长。“破案本质就是一个搜索问题”,吴明辉觉得,从最一开始报案的原始情报,一直搜到最后的犯罪嫌疑人,再搜到他今天的轨迹。“当优秀的警察用这套数据系统时,系统也会学习沉淀警察们的分析思路,最后在后台沉淀出一个‘Alpha Police’,变得越来越牛,没有人再能赶上,这就是这套系统的本质。”

经历了两次成功的数据创业,吴明辉觉得,数据生意的黄金法则无外乎三个:数据+人+场景。在秒针,数据是流量,人就是广告主,场景就是广告营销;而在明略,数据变成了案件信息,人就是警察,场景则是侦破犯罪案件。

数据是感知,是对客观世界的观察;人是行动的主体,要对分析、理解、决策;场景则是产生价值的实体,任何行动只有在特定场景下才会产生结果,最终形成价值。数据产生信任,信任让人行动,而行动创造价值。

吴明辉说,在数据科学界,比起“数据科学家”,他更喜欢称自己为“数据产品设计师”,因为对他来说,做好一个产品,就是数据科学最重要的事儿。

数据侠门派

吴明辉,明略数据、秒针系统创始人兼董事长,人工智能技术专家,连续创业者和天使投资人,北京大学计算机硕士(人工智能实验室)。

吴明辉拥有二十年软件工程开发和算法研究经验,拥有多年的企业级服务领域创业经验,是企业级服务领域里全能型企业家。他于2014年创办明略数据,负责公司产品创新、资本运作和战略统筹。吴明辉带领团队在短短时间内把明略数据打造成为了中国本土行业人工智能解决方案领军品牌。吴明辉在创办明略数据之前于2006年在大学里创办了秒针系统。秒针系统是中国领先的全域营销数据与技术服务提供商。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

分享这篇文章到