feedback

意见

反馈

back-to-up

回到

顶部

想做“开放数据”这门大生意?先让数据“关联”起来

数据侠

· 马建军

编辑 | 胡世龙   2017-11-07

随着“开放数据”这项运动在中国的持续进行,各类开放的数据逐渐丰富起来。如何解决其中的数据孤岛难题?又如何最大化挖掘开放数据的商业价值?10月30日的线上数据侠实验室中,大数据交易平台“发源地大数据”创始人兼CEO马建军为我们分享了其在“开放数据商业化”方面的实践和观点。本文为其现场演讲实录。

大数据应用需求大,但痛点是获取成本高

从理论上来说,大数据可以应用在各行各业。特别是最近几年,人工智能火热的形势下,数据源作为大数据的基础设施,其价值已经体现得淋漓尽致。应当说,没有数据就没有人工智能,也没有机器学习、深度挖掘等,包括数据层面的应用。

我们认为,中小企业对数据的需求场景一般包括三大块,第一是将数据用于数据分析、市场调研等;第二是很多项目在早期启动或者运营过程中需要有数据的支撑,即启动/运营数据;第三是企业客户数据挖掘、精准营销,基于数据做一些用户画像等研究,供企业进行营销。

大数据的市场空间,大家都比较清楚了。差不多从2012、2013年,国内的大数据发展开始慢慢落地,到了2015年,依靠大数据做精准营销已经成了很明显的趋势。而且有一些基于开放数据的创业公司比如企查查、天眼查等也已经落地。

不过,尽管如此,我们还是看到,最近十多年来,数据分析在国内一直不温不火,短期内可能也很难落地。这和国外的情况显然不同。

我们今天的主题是关于开放数据,其获取的渠道可以是从QQ群、淘宝等进行交易;也可以通过传统的API模式,按调用次数购买;当然,也可以自行采集。第一种方式的成本高效率低,而且因为是交易,数据可能都是些历史数据。第二种API方式,虽然在前几年发展不错,但是接下来的发展并不让人看好,因为其成本高。而如果是由公司自行采集,往往是传统的单机方式,数据的利用和应用层面往往也有很多问题。

那么如何来解决这些痛点呢?

数据从开放共享到直接交易

要解决用户碰到的数据获取中的痛点,一个解决方法是推动数据的交易。在以前并没有数据交易的概念,从2015年贵阳成立大数据交易所这一个时间节点开始才有。

所谓数据交易,其主要目的是推动数据的开放共享、直接交易。在此之前,当然还要先制定一个规则:什么样的数据可以开放?如何开放?又如何去共享再到交易?

下面这张图是基于我们多年经验总结出来的数据流通交易的架构:

首先,开放数据要得到应用,需要有一个初加工的过程,然后再做清洗等深度加工。而这中间必须要有的一个环节是数据的处理。我们把这个过程形容为“从小麦加工成面粉、再加工成包子、馒头”,这才叫做应用。

我们认为,不管是开放的数据还是非开放的数据,从数据源头到终端的应用,用户都有加工的需求,有了这个环节后才能拿来做交易变现,实现更好的流通。这个过程其实可以称为“数据源”的交易。

数据源交易不同于我们传统的数据包。有一个概念叫做“块数据”,这种数据其实相对还是比较孤立的,还是一个个“数据孤岛”。而数据源交易则是一个活的交易。因为它其实就是一个数据产品,能帮助用户解决很多问题,比如数据的动态交付、数据安全、版权隐私等等,我们称之为“三元素”——先授权、后脱敏、最后再确权的一系列过程。

在将一个个数据孤岛打破、推动数据融会贯通的过程中,数据加工起到了很大的作用。如果没有这个环节,直接拿数据包来交易,其实并没有从根本上解决数据价值最大化的问题。下图是对前面架构的补充,这三个层级中,数据加工的重要性不言而喻。

开放数据商业化的关键——数据融合

接着我们再来看看具体的案例,我们将开放数据进行了“产品化”,并按照数据的应用类型做了分类。下图是我们目前能提供的各种数据类型:

上面这些数据,一般也是比较有价值、用户最为关注的数据。但值得一提的是,很多在大家看来可能一点价值没有的数据,其实也有一定的需求。什么原因呢?因为随着大数据的发展和开放数据的应用,尤其是数据融合的观念,数据整合越发重要。

目前要想让数据变现,就得看那些“长尾数据”,要有海量数据的观念,将一个个海量的数据孤岛先进行整合再进行融合管理。就好比大众点评,早期肯定也做了很多数据采集之类的“脏活累活”,但一旦建立了数据的索引,那么你就会发现其价值非常大。

大多数的用户对数据的应用需求其实都不是某一个数据源,而是多样化的。我们还可以看看下面这张图:

从上面这些应用场景来看,大多数的用户的需求都是基于某一个独立的数据源,然后再基于海量数据源或者多个数据整合使用。

对于开放数据来说,它的体量本身是非常大的。至于各种企业、机构的内部数据,其对外公开的难度更大,使用会受到各种层面的影响。未来,开放数据的体量一定是远远大于内部数据。从这个角度看,开放数据的应用空间是不可想象的。这种数据的矿山就像是金矿,如果不去开挖,那么可能就是一座座的数据孤岛,没有任何价值。

为了最大化数据价值,数据的融合贯通非常重要。我们可以拿“企查查”这家公司作为例子。在早期,这种APP可能只能够查询企业的工商信息,但这样并没有大的发展空间,但你现在看到在这类APP上能够查询到企业的多维度信息,比如股权、股东、知识产权、商标专利、相关的报告等等。有了这种多维的信息,将多维的数据打通,对于C端用户来说其价值就非常大了。

所以,我想说的是,不管是开放数据还是非开放数据。要让其发挥最大的价值就要做数据之间的关联。这样的关联模型一旦建好之后,其在未来的应用将非常大。

(注:以上内容根据马建军在数据侠线上实验室的演讲实录整理,有删节调整。图片来自其现场PPT,已经本人审阅。本文仅为作者观点,不代表DT财经立场。)

数据侠门派

本文数据侠马建军,大数据交易平台“发源地大数据”创始人兼CEO,硕士,10年大数据行业研发管理经验,曾创办多家企业。国内首款SaaS采集引擎的核心开发者;曾供职于腾讯,负责过腾讯首个游戏大数据预测引擎的研发。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing002并备注“数据社群”,合作请联系datahero@dtcj.com。

(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)

分享这篇文章到