意见

反馈

回到

顶部

百度地图大数据如何赋能商业选址？

数据侠

· 阚长城

文 | 阚长城编辑 | 张慧芳 2018-12-11

人类几千年的文明催生了城市的发展，计算机与复杂科学带给我们新的资源——大数据。罗马非一日建成，人力和时间成本极大，但试想一下，如果有了大数据，罗马的建成能够缩短多少天呢？如今，城市里藏了大量数据，那么它们到底是什么？又该如何被开采与利用？大数据如何辅助城市规划与商业选址？11月29日的数据侠实验室，百度地图资深研发工程师阚长城为大家介绍了如何开发和利用时空地理大数据，并结合百度慧眼的商业案例，解释了大数据在商业选址和城市规划中的应用。本文是其演讲实录。

大家好，我今天的分享主要是以下三个方面：

地理时空大数据的介绍；
基于时空大数据和人工智能技术在城市规划方面所做案例；
基于时空大数据的商业选址案例。

▍地理时空大数据

交通流量、气象信息、地理信息、手机信号均是时空数据。时空数据具有时间和空间属性，时间属性主要是指时间的变与不变，空间属性一方面是指空间的位置，另一方面是指空间的层次和距离。

现实世界中超过80%的数据都与地理位置有关，数据量非常大。从下图可以看出，时空数据来自众多数据源，且数据多样、异构。

定位数据是指移动互联网时代定位是基础服务。外卖、打车、购物，甚至视频等APP都需要通过定位提供相应服务。比如说墨迹天气会根据位置显示天气；视频根据位置去推荐一些相关视频。

现在定位类型多样，包括卫星、基站、Wifi以及地磁等。基于卫星的定位，典型的是GPS定位，其优点是精度高，缺点是被高楼遮挡或处于室内时，定位精度较差。所以手机APP一般不直接使用GPS定位，而是使用综合的网络定位。

百度地图基于这些定位能力，开发综合的网络定位服务，通过SDK为开发者提供定位服务。定位及高精度定位技术难度大，门槛相对也较高。

主要从三个层面提供定位服务：

APP层面：通过SDK对外提供定位服务；
设备层面：提供系统级别定位；
芯片层面

短期的定位可以反映人流的聚集和热力。如左图是北京某个时间的热力图，可以清晰区分人流量多少的区域，右图是南京东站一天的热力变化，可以看到从0点开始有人聚集，12点人最多，下午人又变少，定位数据可以非常直观地反映人流量的变化。

基于用户每天900亿次的定位轨迹数据，可以挖掘其出行OD，针对长距离的跨城出行，我们做了百度迁徙，对应下图左边第一个图，中间的图是郑州和周边地区的出行OD，右边图是青岛某个交通小区的出行OD。

人口常驻表现为基于用户的长期位置和POI（兴趣点，Point of Interest）等相关数据，挖掘全国超过13亿的常驻人口数据。

用户画像主要从人的自然属性、社会属性等不同方面360度刻画产出超过万级的标签。

POI数据能够反映一个区域的经济发展水平和活力等。比如，下图中左边是北京二环和五环区域内餐饮类的POI，对比发现：二环的POI明显高于五环，说明POI的分布可以反映区域的竞争业态，右边四利用POI和人的活动模式挖掘的功能区，POI很大程度上可以刻画空间承载的功能。

路况可以清晰地反映路网的运行状态，比如在什么时间哪里最堵。路况数据的挖掘是基于公众数据、行业数据、卡口流量视频等利用AI技术挖掘得到。路况目前已经覆盖全国400多个城市，市内和城际道路覆盖超过99%。

▍时空大数据的应用

一、城市地理理解

首先，基于地图时空大数据，从不同的空间粒度进行建模，产出不同空间层次上的地理特征。空间层次依次从宏观到中观再到微观。

宏观层面：基于百度迁徙和常驻人口流动数据识别城市群，评价城市重要性。
中观层面：基于定位数据，对城市副中心发展绩效进行评估，同时基于全景图对街道品质进行评价。
微观层面：基于地块粒度，进行城市功能区的发现。

关于功能区的挖掘动机和挑战表现在，城市规划周期一般在5到10年左右，规划之前往往需要了解现状、规划后的效果、如何跟踪等问题，传统手段时间较长，效率不高。基于百度地图POI、人口以及人的活动数据进行城市用地功能的识别，可以在短时间内识别全国各个城市的用地功能。

地理空间中的POI可以反映一个区域承载的功能，如反映某区域承载的是科研教育功能，不同的功能区人的活动模式也有差异，比如说下图，在工作日人们一般九点离家，下午五六点回家，POI和人的活动模式存在潜在语义信息。

但在挖掘过程中也存在很大的挑战：

模型方面，整体来说样本数据少、获取困难，分类问题转化为无监督模型；
特征方面，存在差异。对于POI类别不均衡的问题，比如餐饮类POI较多，而景区内POI较少；同类POI重要性不同，比如上图中黄焖鸡和全聚德属于同一区域，但是其重要性有很大不同。

在特征设计上，首先，利用路网数据将城市切分成一个个地块，然后以地块为单位进行特征提取，利用tf-idf计算不同类POI重要性，如可以降低餐饮类POI的重要性，然后提升景区类POI的重要性。对于同类POI重要性不一致的问题，可以利用POI在地图上搜索热度解决。这样每个区域就对应一个各类POI重要性的向量。

其次，活动模式特征设计，将人的一次出行定义为出发目的地以及出发到达时间，区域间的联系及时间就构成文档中的单词。

在模型设计上，第一，问题转化。

将区域类比成文档，区域承载的功能就类比成了文档的主题，活动模式就类比成了单词，然后区域POI重要性转化为文档元信息。

第二，主题发现，地块语义标注。

基于地块的Poi vector和活动模式，利用改进的LDA算法进行区域功能发现，然后进行主题聚类，基于地块各类POI重要性排行进行语义标注，最后得到最终挖掘结果图。

在评估应用上，第一，实际调研，其准确率为87%。

第二，专家知识。对宁波市进行功能区发现，并与宁波规划院一些专家确认其准确率较高，结果超过85%。

第三，规划现状。对比规划现状，发现符合预期。

下图右上角统计了混合用地每种类型的功能区各类POI的占比，发现居住、商业、商务用地对应的POI类别前三名一致:均为公司、住宅和商业。说明居住、商业以及商务这三类POI相关性较强，土地混合利用的情况较为突出。

在评价土地混合度上，可以使用信息熵度量用地混合度。上图左下角是地块信息熵的分布，从图上可以看出，北京市中心城区的用地混合度成偏态分布。

由此说明，土地利用混合度有规律可循，进而可以对土地利用混合度进行建模。

在用地混合度空间分布上，

用地混合度向外逐渐呈衰减趋势，大致呈同心圈层形态。
用地混合度的空间分布呈现单中心结构。
距离城市中心越远，用地混合度越低。

在用地混合度建模上，

发现用地混合度和距离的关系，符合幂指数衰减模型。
对幂指数两边取对数，得到线性回归模型。
对地块的混合度和地块离中心距离进行线性回归分析，发现城郊用地混合度波动较大，这是由于城郊存在副中心城市和卫星城镇，整体上呈组团式布局，使用地混合度的空间布局不均匀导致。

关于街道品质评价，通过segnet/unet全卷积神经网络，将图片分割成路面、天空、树木、建筑等十余个类别，再通过地理模型和机器学习算法挖掘街景的特征及其空间分布规律。

首先使用算法对全景图进行语义分割，上图是语义分割的结果，显示出每类要素的占比，然后利用热点识别算法进行整体的意向提取，利用非监督的聚类算法对街道特征分析。结果分析如下：

通过聚类分析根据每条道路上各类景观要素的占比进行聚类，将道路分为：

交通主导型
建筑密集型
景观空旷型
要素均衡型
绿化优良型
绿树成荫型

在城市群发现上，首先需要对人口迁徙数据进行分析，发现人口迁徙呈现不均衡现象，且胡焕庸线以西的人口迁徙规模和密度明显低于以东地区。

其中通过对各省份的迁徙数据分析发现，各省份的人口吞吐量极不均衡；既有广东、江苏、河北等人口流动大省，也有福建、甘肃、宁夏等迁徙规模较小的省份；空间上邻近的省份，短期人口的流动强度相对比较大；迁徙规模的大小既与该省份的人口基数相关，与该省份的空间区位、经济建设水平、区域发展态势等均有关联。

城市群划定原则如下：

城市间的联系强度足够大；
城市群内各城市须在空间上邻近；
城市群内各城市不一定在空间上直接接壤。

在进行城市群挖掘时，能够基于人口迁徙数据，利用k壳分解算法进行挖掘。

基于人口迁徙和常驻人口流动数据，利用PageRank算法挖掘。结果显示：北京、上海、广州、深圳和成都是短期人口流动中的关键节点；东部沿海地区上短期人口流动呈现“带状均衡”模式；中西部地区的短期人口流动呈现“节点带动”模式。

二、城市人口理解

基于地图出行位置大数据，挖掘人口在不同时间跨度下的个体和群体特征。针对人口瞬时流动我们做了人流量预测，针对人们的短期出行我们做了通勤和市内OD挖掘、跨城迁徙挖掘，基于人的长期位置信息我们做了常驻人口挖掘。

关于人流量预测，我们知道每隔几年都会发生一些踩踏事故，如果能提前知道热门区域的人流量，就可以避免踩踏等类似事情的发生，同时人流量预测在公共安全和交通管理领域都是非常重要的。但是预测人流量也存在着问题和挑战：特征表达方面，时间和空间特性、异常因素方面挑战，比如天气、节假日等原因；模型方面，传统时序模型很难对时空特性和异常建模。

在模型设计上，对于人流量的预测可以将其转化为图像领域的问题来解决。

在时间特性、异常因素上，基于2017年定位轨迹、地理属性和异常因素特征进行建模，将城市划分成网格，将定位数据投影到网格，计算每个网格的流入和流出人数，同时考虑POI热度，也就是将城市就转化成了一张图。网格就相当于图片中的像素，网格的流入和流出就相当于图片中的通道。人流量空间的相关性就相当于图片中像素之间的关系，多个时刻的数据对应多张图。如下图所示：