feedback

意见

反馈

back-to-up

回到

顶部

万剑归宗——文字处理是数据智能时代里的人脑 | 数据科学50人·陈运文

陈运文

· 数据科学50人

Harry Wu   2019-05-08

陈运文,复旦大学博士,曾带领团队在ACM等大型国际计算机竞赛上获得冠亚军,负责过百度、腾讯等互联网科技巨头的大数据业务后,2015年趁着三股东风创业,他在数据科学领域的目标简明、坚定,就是要做中国文字数据处理领域的第一名,他的故事也是数据科学时代的创业记。

 

上海张江,一个你在任意一家咖啡厅坐下,都能听见身旁的人讨论代码、技术和产品的理工科圣地,这座高科技园区里有大大小小的近万家企业。一条街深处的写字楼里,曾在各大主流互联网科技公司负责过文字处理工作的陈运文博士和他的团队正在努力攻克文字处理的技术难题,他们希望用文字处理领域的特定算法,以及积累的“熟语料”大数据,打出自己的一片天,在数据科学的大海中驰骋。

在文字中发现数学之美

盖乌斯·尤利乌斯·恺撒的伟大之处,并不只是在于他作为罗马杰出的政治家,成为共和国独裁官,并奠定了罗马帝国的基础,在密码学领域,凯撒发明的加密法(Caesar Cipher,又称凯撒密码)也是人类最早的情报传输加密方法,成为当时保护重要军情的领先加密系统。

陈运文在达观数据办公室的墙上,高挂起几幅人类文字史上重大事件的照片。其中,按时间划分,最靠前的属凯撒大帝发明的凯撒加密法,这也是文字处理领域最经典的加密算法案例。

(图片说明:基于文字符号的密码学,由凯撒加密法到“计算机之父”图灵的Enigma超级密码机,历经近2000年)

“凯撒大帝为了向他的将领下达重要的秘密命令,并且必须确保信息不被泄露,想出了一个方法。他把字母做一个轮转,比如说A可以换成C,B可以换成D;凯撒只要跟将领们保持默契,就彼此知道如何换算了,当将领们拿到凯撒加密的手令后,就可以解密成看得懂的文字。这是人类历史上最早用数学方法加密文字的技术,后来罗马的敌人腓尼基人聪明地用数学的方法破译了凯撒加密法,即通过统计分析希腊字母里每个字母出现的概率,来进行破译。”从小就酷爱阅读的陈运文,聊起文字的加密技术时显得十分兴奋。

时间回到人工智能历史第二浪的90年代(注:上世纪50-60年代人工智能兴起第一波浪潮,当下处于人工智能第三波升浪中),小时候的陈运文是个数学迷,多次参加奥数比赛,从小学到中学,拿过各种全国性奥数奖项。直到有一天,他慢慢发现了暗藏在语文中的数学密码。

陈运文说:“小时候都知道数学课和语文课是非常不同的两门课,但是有一天我突然发现,其实语文它背后有大量的数学规律,数学的很多算法原理是可以运用到语文的文字里面去的。”这也成为他与文字数据的第一次亲密接触。

关于为什么选择进入数据科学领域,并做起文字处理工作,陈运文觉得,作为一个理工科技术男,能和文科生专长的文字打交道,让他觉得很有意思。同时,在复旦大学读计算机时,自己能结合好机器学习研究文字,也是一大催化剂。“我当时学机器学习,让计算机模拟人去学习数据和挖掘数据的规律,那时就接触到了大量的数据,尤其是大量的文本数据以及分析挖掘工作。”

文字处理隶属NLP(自然语言处理),后者被誉为人工智能皇冠上的明珠。人工智能领域的权威专家、百度高级副总裁王海峰曾认为,思考和获得知识的能力成就了今天的人类,这种能力需要通过语言来找到思考的对象和方法,并外化为我们看、听、说和行动的能力。相较于动物,语言是人类特有的,并且建立在语言之上的知识总结、提炼、传承以及思考,也都是人类特有的。

人类在发明文字之前,进化速度非常慢,但是发明文字以后,人类就驶进了文明进化的快车道。4000年前,人类还在原始人的状态,4000年以后的今天,我们就已经登上了月球。

曾经在中国最大文字搜索引擎百度服务过的陈运文深知,人通过搜索引擎获取信息的行为就是人机交互的过程,这个过程基于自然语言,所以,和图像识别、语音识别等技术相比,自然语言处理是搜索引擎最核心的基础技术。

“我在百度负责大搜索,也就是百度搜索引擎的文本挖掘,这段珍贵的工作经历让我了解了在超大规模的文字数据集上面怎么来做文本分析挖掘和应用的,既需要我深入了解各种类型的文本,又要考虑在超大规模的并发量下,保持系统稳定健康运行。所以,这一段时间对我工程能力的锻炼是非常大的。”在总结百度工作时,陈运文如是说。

从甲骨到纸张,再到互联网,自然语言处理已是目前人工智能技术最成熟的应用。如果我们把计算机视觉和语音识别分别对应人类的眼睛、耳朵和嘴巴的话,那么自然语言处理就是大脑。

作为自然语言处理的重要组成部分,文字处理在商业应用中无处不在,从合同审核,到财务报表检查,再到理解文字,并且让机器进行文字写作。

“大量的图像和语音数据的处理,最后都会归结为对于文字数据的处理,你到图像里面一打标签,语音把它转换成文字,最后还是要做文字处理。”陈运文在阐述文字处理与其他人工智能的细分应用时,解释道。

(图片说明:自然语言处理技术的发展历程)

陈运文说自己最喜欢看著名科技投资人吴军的书。在《数学之美》一书中,作者吴军详细阐述了计算机自然语言处理的魅力。

走过上世纪60、70年代,研究者对自然语言处理工作的乏善可陈;到80年代,由人规划文字的文法规则占主导地位;再到90年代,大家发现统计得到的句法规则比语言学家总结的更有说服力;直到最近十年,深度学习开始应用到自然语言处理中,且技术日渐成熟。目前,自然语言处理已成为专业人士眼中下一个人工智能的爆发点。这一切是信息时代的发展,也是数据科学的发展。

一场创业背后的三股“东风”

陈运文在文字处理领域创业前,正好遇上了三股东风。

2015年,政府非常鼓励双创,大数据也上升为国家战略。如果说政府鼓励新经济以及当时的政策扶持算是第一股东风的话,那么风险资本的助推就是第二股。

2015年盛夏已过,北京残有些许燥热,陈运文走进真格基金位于北京国贸的会议室内,面对真格基金从合伙人到投资总监的一屋子风投家们,他并没有紧张,也许这份自信来自于他在百度、腾讯文学、盛大文学等大公司和各种大场面的历练,也许就来自于他对文字处理前景的坚定。

这是一场创业项目路演,除了钱,更重要的是让投资人看明白达观数据的商业逻辑。

真格在中国风投圈名气很大,2011年,真格与红杉中国基金在北京成立了新的真格基金,专注投资天使期的项目。那次,真格来了一屋子人,足以看出他们对陈运文创业项目的重视程度。

在一个小时的路演讲解之后,陈运文被安排到会议室旁边的小屋休息,隔着厚实的墙体,虽然听不见会议室里的讨论,但他也能感受到投资人们既兴奋又谨慎,这次真格基金是要动真格的了!

“不出20分钟的讨论,真格基金就决定投资我们了。”说到这里,陈运文脸上挂满了骄傲, 1000万是真格当时投出来的最大金额的天使轮投资,陈运文打动风险资本的除了团队的技术能力,当然还是顺“市”而为。

“我们也统计过,一个白领每天至少有一半的时间是在和文字打交道,不是在阅读,就是在审核或者写作,所以我觉得文字处理的市场本身就有非常强的号召力。我们也希望能够提供优秀的文字自动化处理的系统。”面对当时巨大的市场机会,陈解释到。

第三股风就是团队。在腾讯文学与盛大文学,陈运文负责起整个公司的文字大数据业务。

“当时我们团队的工作是让计算机能够像文字编辑一样,做大量阅读理解工作。团队一天要处理的新增作者写作的文字量大概是1亿字,传统的方式是靠人去阅读和审核,后来我们就让计算机自动去完成对这些文字数据的处理和分析,其实这已经是一部分人工智能的雏形了。”陈运文回忆说。

(图片说明:陈运文带领团队在AMC比赛中取得国际冠军)

陈运文在盛大时组建了一个算法团队,并多次参加了国际的算法竞赛,也拿了好几次世界冠军(2012年EMI Hackathon竞赛国际冠军、2012年ACM KDD-Cup 数据竞赛国际亚军、 2014年国际数据挖掘竞赛ACM CMKI Competition国际冠军)。陈运文说:“通过比赛,我们锻炼出了一支能征善战的技术团队,而且非常团结。” 就是这支团队,汇聚成了今天达观数据的创业人马。

2018年底,达观数据又完成1.6亿元B轮融资,宽带资本、元禾重元、联想之星、软银赛富等参与其中。

(图片说明:陈运文团队在第一财经大型跨国创投真人秀《寻找独角兽》中荣获银独角兽奖)

数据智能的本源

关于大数据与人工智能的创业,陈运文通过这些年的经验略作总结。看对大方向,寻找到应用场景,并且积累出核心竞争力是最重要的。所谓核心竞争力,包括专门针对行业的算法能力、开发产品与服务的机制,以及充足的新能源——大数据。

“在文字处理领域,我们将数据统称为“语料”。语料分为两类,一类是比较容易获取的生语料,包括合同、财报、公告、政府公文等等;另一类是较难积累的熟语料,这是需要各垂直领域的专业人士对生语料给出大量且复杂的标注,比如财务报表的熟语料数据就需要一位财会人员,专门标注出财务报表里面数字的勾稽关系。”陈运文解释道。

熟语料是大规模智能化应用的数据基础。为了搭建熟语料的大数据库,达观数据在成都建立了一个熟语料基地以积累数据智能所需的文字大数据。

当下我们认知的人工智能技术主要依靠于数据驱动,所以也被定义为数据智能。在这个数据智能的时代里,数据成为了一种新型的、取之不尽用之不竭的可再生资源,故大数据就等于发展人工智能的大资源。

中国发展数据智能的优势除了巨大的市场和所谓的“工程师红利”之外,最为核心的还是大数据。随着5G时代的慢慢到来,数据积累和传输的成本会越来越低。基于5G对未来的影响,陈运文说自己非常看好未来5-10年文字处理技术的发展,并落地为具体的应用。

陈运文曾在一次采访中说:“有人统计,在创业中99%的企业会失败,只有1%的企业能够‘幸运’地胜出。”对于在自己人工智能与大数据领域的创业,他显得很有自信,这份自信也是这些年在各种商业运营与计算机比赛中积攒下来的。

当下人类还没有对于人工智能的官方定义。而在过去,人工智能的潮起潮落洗刷出不少的创新产品。“我们用的ATM机,现在没人觉得是人工智能,但如果倒退50年来看,这就是一个智能化的创新。”陈运文面对人工智能的潮起潮落时,如此解释。

人工智能也许是一场大浪淘沙,其中的创业公司有失败也有成功,其中的技术或产品可能永垂不朽,也可能被时间证伪。身处时代大流中,陈运文目标清晰,要做中国文字数据处理领域的第一名。

万剑归宗,坚定文字数据处理方向的陈运文说:“数据智能里,图像蕴含的信息量是最多的,但它比较直观,是一个相对比较浅层的信息。语音和人类的交互是相关的,带有大量的人类的情感表达和实时的反馈。相较之下,文字更接近人类智慧的本源的,更深刻、更抽象、更凝炼。如果图像代替人的眼睛,语音代替人的耳朵和嘴巴,那么,文字其实才是人的大脑。”

数据科学50人成员

陈运文博士 达观数据创始人&CEO,多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最顶尖的大数据竞赛的冠亚军荣誉,曾担任百度核心技术研发工程师、盛大文学首席数据官、腾讯文学高级总监等职位,2015年创办达观数据,2018年荣获第九届上海青年科技英才,入选科技部“万人计划”专家,同时担任复旦大学、上海财经大学聘任的校外研究生导师,在IEEE Transactions、SIGKDD等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文,并译有人工智能经典著作《智能Web 算法》(第2 版),并参与撰写《数据实践之美》等论著。在机器学习、自然语言处理、搜索推荐等领域有丰富的研究和工程经验。

 

关于数据科学50人

“数据科学50人”项目是由第一财经旗下DT财经发起的中国顶尖数据科学从业者的系列专访与社群组织,从数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布。

 

分享这篇文章到