feedback

意见

反馈

back-to-up

回到

顶部

魔都名媛地铁优雅出行指南(附朋友圈狂转的上海地铁流量图)

数据侠

· 仲志强

文/仲志强 沈念祖 图/仲志强   2016-08-08

在上周举行的数据侠联盟第01期线上沙龙里,大家对地铁数据讨论得很HIGH。今天萌主先带你来分享作为沙龙嘉宾之一的仲志强是玩转地铁数据的。他带领的“智慧地铁族”团队,通过挖掘上海4.6亿地铁大数据,帮助作为魔都名媛的你找到一条坐地铁也能优雅出行的道路,这样你就可以踩着恨天高,背着闲鱼上买来的LV,在地铁里安心地刷刷淘宝了。当然了,你要切记,一旦运气不好遇到熟人,一定要感叹“哎呀难得支持一次绿色出行,居然这么挤哦~”

名媛们的早高峰

每一个工作日的清晨,魔都的地铁车厢就像一节节奔跑的人肉罐头,当然里面就有我们的地铁名媛(这里包括了你们想要的张江名媛、闵行名媛、南汇名媛、大虹桥名媛、松江名媛等等)。通过简单规则,我们找到了大约70万地铁名媛,分析其出行特征。

小说里哪怕在魔都群租的姑娘们,都是穿着当季新款限量裙,住在静安区一梯两户的精装修房里,拎着几千块的a货包包,偶尔坐在朋友的敞篷车里回家孤芳自赏的充满理想的奋斗女青年。

但现实残酷得多。地铁名媛大多居住于4号线以外区域,主要分布在1号线、2号线两端和9号线沿线的九亭和七宝区域。每天清早,她们在莘庄,九亭,莲花路这三个重点区域,从无数破灭的魔都梦中惊醒,在抢洗手间排队洗漱中恢复活力,穿上高跟一路小跑进地铁站。其中,嘉定、宝山、奉贤和川沙的名媛们,则通常把通过地铁进城描述为“去上海”。

地铁上班族生活与工作区域分布图(交互点这里,PC端效果更佳哦)

名媛们乘地铁“去上海”无疑是一场持久战,战场可以是人民广场、陆家嘴、静安寺也可以是漕河泾、五角场。

早8点已经是名媛们排队赶地铁出征的高峰期了。下楼买个煎饼果子,煮玉米,最好边走边吃,否则到了5号线,自己好不容易挤上去了,早餐还卡在门外。即便如此,早餐一定得吃!可别忘了你可是名媛,如果不吃早餐,那和咸鱼有什么分别。


点击:上海地铁系统进站流量图(pc端交互效果更优雅,拖动时间轴,可以观察到早、晚高峰的形成时间、出现的区域和高峰站点)。另附视频链接(音乐和视频更配哦~)

同时还可以点击:上海地铁出站流量图另附:视频链接

上海地铁早高峰进站人数top10个站点被1号线和2号线包场,唯有九亭站在重重包围中杀出血路——这个在松江与七宝夹缝中的站,是众多上班族的租住地。

莘庄站则毫无悬念成为早高峰进站客流量最高的站,这是闵行名媛进上海的“剑门关”。每天早高峰期,至少要半个小时才能挤进这个换乘站的。毕竟莘庄吸收了包括5号线以及N条郊区线的客流,住在远郊区县的闵行名媛估计是很难躲开这个站点(不要急,后文会有解决方案的)。

​生活在九亭,工作在漕河泾

“人民广场站到了。”

“对不起,麻烦让一下!”闵行名媛温柔地跟站在自己前边的人说,没人记得她从莘庄拼劲全力挤上车的时的模样。

地铁名媛的工作区域与生活区域泾渭分明:主要沿2号线两边呈东西方向分布外再加上徐家汇、漕河泾开发区等区域。通过出发地和目的地的分析,我们发现一个有趣的现象:生活在九亭、工作在漕河泾的松江名媛最多。

谈及魔都地铁名媛的工作区与生活区,这里有必要澄清:地铁名媛的工作日和自己的生活没有半点干系。地铁名媛大都是职场上的白骨精,自愿把青春献给公司献给党。 

到了晚高峰,被工作操翻了一天又没有约会的名媛,开始搭地铁返回莘庄、九亭、川沙的出租屋。如果再勤(ku)奋(bi)些晚下班,就会遇上20:30后从张江下班回来的程序员们。不过如果是22:00左右才从徐家汇和人民广场加完班往回赶,就很难捕获这群准高净值人群了——因为据说张江的公司20:30之后算加班,程序员回家都是打车的。

仔细拖动时间轴你会发现22:00上海体育馆还爆发了一次进站高峰,不要问为什么,我记得那天有什么演出比赛,但总归这不是地铁名媛们的常态。毕竟,在这看一场演出,要是赶不上末班车,川沙名媛打车回家至少要180块,而坐地铁也都要换乘两次才能回到那个疑似像南方某小县城的地方。恩,要花180块,就值不回这场公司免费送票的演出了。

当然,如果运气好,穿着高跟一路小跑,名媛在看完演出后可以一直坐到广兰路,但2号线的延长线也一定是停运了。当你穿过地铁口乌泱乌泱的黑车司机、手抓饼摊、水果摊后冲向公交车站,说不定还能赶上末班的公交车。

公交换乘:松江、闵行名媛更堵心

对于“最后一公里”的问题,大多数名媛选择通过绿色环保的地铁换公交。毕竟不论是滴滴还是uber里的那些年轻人,还有那些骑自行车(哦,名媛们称之为“单车”)的潮人们,和名媛们都没有太多交集。当然了,即便偶尔打车的话,名媛们也是会问司机要发票的。

通过挖掘一卡通换乘优惠记录,我们分别找到了工作日和休息日不同的名媛们换乘热点区域。如工作日,公交换乘热点区域集中在像1号线的莲花路、彭浦新村,9号线的九亭、七宝,8号线的沈杜公路,以及2号线的龙阳路、徐泾东等站点。休息日,公交换乘热点区则变成了上海火车站、上海南站和莘庄(注意,“莘庄”再次出现了)

点击:公交换乘地铁站点统计图(交互效果点这里,PC端效果更佳)

可以发现,工作日的top10的站点都集中在魔都南部。其实看轨交地图也可以看出,南面纵向轨道交通要比北面密度要低点,所以不要怪我们没有提示松江、闵行名媛,被挤成卡片的这条路,其实是你们自己选的。(结合DT财经之前做的上海地铁沿线租房地图,名媛们或许会有更多的选择。DT君就是这样硬广插的,对了我们还做过魔都地铁沿线二手房价图……)

上图可见,为了名媛们的绿色出行更加顺畅,需要加强公交地铁接驳的区域,如莲花路、莘庄、九亭等,可重点针对这些区域调整公交路线。

此外,名媛们在工作日和休息日对于地铁的需求存在着非常大的差异,工作日名媛们都在家和工作地两点一线奔波。休息日的特征则较为分散、均匀。休息日虽较为分散,但换乘的需求普遍增多(圈圈变大了、颜色变混杂了)

名媛们的“上只角”情结

尽管工作日和休息日名媛们的轨迹看似飘忽不定。在哪些地方更容易捕获一名地铁名媛呢?估且认为人多的地方吧。

对照地铁系统各站日均流量统计,人民广场日均人流量大约为22万人次每天,相当于华夏中路日均流量的300倍。显然这里更容易捕获到地铁名媛。尽管到了夜里,名媛们要乘着2号线回比华夏中路更加遥远的川沙镇,可回家卸了妆的名媛……你未必想遇到。


以人民广场、徐家汇、静安寺、陆家嘴分别为圆心、三公里为半径画4个大圆,基本上能够囊括地铁名媛的日常出行半径。排名前10的站点都是多条地铁线路换乘的核心商业区。名媛们穿梭在人来人往的咖啡馆之间,点了杯免费的柠檬水就聊着几个亿的生意(不过DT君略疑惑:世纪大道去哪了?作为上海4条线路换乘站,怎么不见这么多名媛?)

仔细一看,top10里,除了陆家嘴,其他都是浦西站点。可见阿拉的“上只角”情结并没能真的削减。

上只角里才有真正的名媛!

班次提前,让闵行名媛不被挤成卡片

写了那么多,到底如何让名媛们优雅出行,而不被挤成卡片,才是正经事!

我们只有知道了到底何时、何处、又是如何拥挤,才能真正帮名媛们杀出一条血路。

要回答这个问题,我们首先定义了拥挤度。然后,通过建立模型并代入出行需求和运行时刻表计算拥挤度。

鉴于莘庄一直处于HARD模式,我们首先来解决闵行名媛的出行难题吧。

以地铁5号线为例选取了2015年4月1日的所有出行需求,得到了拥挤度动态图。(5号线列车的定员为1170人,目前早高峰班次7:00-9:00)

点击:列车载客量动态图(以五号线为例,PC端交互效果更佳哦)

另附:视频链接

可以发现从早上7:14左右开始,5号线列车从颛桥站以后已经进入极度拥挤状态,拥挤度接近125%,而此时第一班早高峰列车刚刚从闵行开发区站出发。高峰列车刚好错过了整个系统人流的最高峰。

显然,如果我们可以参照数据,把早高峰班次提前一点,或者告诉名媛们上车时间稍晚一点(这似乎不太现实),就可以为地铁名媛的出行做出更好的选择。

“大站快速列车”帮助松江名媛一站到底

资深的地铁名媛可能都有这样的经验,高峰时段有些站怎么挤都挤不上,而有些站停下来却很少人上下车。这是因为同一线路各站间进站和出站流量分布极不均匀。

针对这种情况,我们提出了一个在高峰时段推出大站快速列车的规划算法,提高系统运行效率,帮助名媛一站到底。

我们以另一条HARD模式下的松江名媛所处的9号线为例,介绍优化后的大站快车方案。

我们的总体优化目标:在限定时间内(高峰时段)将尽可能多的乘客送往主要目的地。

快速列车停靠站设计:

采用贪婪算法,即按进站人流量排序,依次选取直到乘客人数达到定员。按出站人流量排序,依次选取并确保所有上车人流能够到达目的地站。引进大站快速列车,提高地铁网络单位时间内通过的人流量,优化单位空间内的人流密度,提高地铁运营效率,最大化地铁网络的社会价值。

又是新的一天开启。不管昨夜经历了怎样的泣不成声,早上醒来魔都依然车水马龙,自强不息的名媛们通过地铁前往不同的商务写字楼里……

贴士 | 地铁名媛的商业价值开发

研究分析4.6亿条地铁大数据,除了让地铁名媛能够优雅出行,还有什么商业价值可以挖掘呢?

毕竟地铁名媛是各大地产豪车大佬的潜在客户,针对名媛的营销策略、地铁广告投放策略、地铁沿线住宅和商业地产需求和价值的评估参考等等都极其有价值。

我们仅提供举例三个切入点可供进一步的分析:

  • 地铁名媛(上班族):

分析地铁名媛(上班族)的出行和消费习惯,服务于市场需求,针对细分市场制定更为精准的商业战略。

  • 地铁广告投放:

地铁人流数据和人流特征可用于衡量某地铁站投放广告价值的参数,针对站点定制相应广告的品类、内容、呈现方式,提高广告投放的效力。

  • 地铁沿线周边商业价值:

结合地铁站点周边办公和住宅房产的面积、租金水平等参数发现相关规律,可用于预测新地铁沿线的人流情况;反之,根据地铁沿线人流数量和特质,合理配置,释放周边商业和住宅地产的最大价值。(DT君硬广:是时候放一下我们的魔都地铁沿线二手房地图了。)此外,还可考虑逆向思维的广告投放,更加精准、高效、低价地指向目标客户群。

案例分析:

某高端护肤品品牌常在静安寺站大规模投放广告,虽然有效但成本很高。通过地铁人流数据,我们发现静安寺站人流大多来自7号线沿线顾村公园、新村路、大华三路等站,则可考虑在这些广告租金相对便宜的站点进行投放,亦可吸引同样的目标客户群体,同时还能增加各站点广告投放的使用效率和收益。

我们的愿景是将这些模型、算法和工具都开源,让更多人参与进来,最后能够体现在图表中的不仅是地铁数据,还可以有公交数据、P+R(Park and Ride自驾车与地铁接驳换乘停车场)数据,甚至是地铁沿线房价数据等。将这些大数据可视化后,政府部门能够更有的放矢地优化交通资源,乘客们能够在出门前合理地规划出行时间和方式,甚至是广告主们,也能够更好地制定地铁广告投放策略。

数据侠快问快答

问:这个数据分析里如何区分上班族(文中的名媛)和游客?

答:目前只区分了上班族,根据出行模式,早晚两个站差别不大,频率比较高,两次间隔时间比较固定,这样的归位上班族,如果要更严格,可以更多指标。

问:换乘的数据有没有剔除?

答:换乘的人还是这些上班的人,没有改变,所以没有剔除。

问:如何通过数据筛选乘客信息区分人群?

答:没有办法知道准确是谁,但是可以分析乘客的行为模式,比如乘客要去哪里,在哪里上下车,时间分布等,然后可以贴标签。

问:现成的可视化工具和自己写代码利弊在哪?

答:现成的可视化工具进行简单探索,最后做呈现的时候可能没有模板帮助,这个时候更好的表现可能需要自己编码。

备注:地铁数据处理

1.基础数据处理

通过建立出行需求模型,用可视化方法动态展现了不同时间段不同线路的上海地铁进站流量变化,同时还对比了工作日与周末的公交地铁换乘热点区域、地铁上班族的居住区与工作区。

数据来源:

开放数据中提取地铁运行线路、地铁线路站点

自带数据为地铁站点经纬度坐标,通过高德的地理编码服务接口获取

数据模型:

地铁网络可用计算机中经典的图数据结构作为数据模型来表示,即描述网络节点集合和弧集合

处理方法:

通过Python脚本处理为JSON文件作为地铁网络绘图的基础数据

2.开放数据中提取一卡通刷卡数据

数据模型:

出行需求为某卡号某天某次有完整的进站时间及站点名称与出站时间及站点名称记录的集合

处理方法:

过滤得到一卡通记录中行业名称为地铁的数据,以剔除公交、出租和轮渡等干扰数据。

结构化地点名称信息,即将“1号线人民广场”拆分为“线路号”为1,“站名”为“人民广场”。这样便于将来统计“人民广场”总进站人数,或在“人民广场”从1号线换乘8号线的人数。

为站点名称添加别名,如“野生动物园”也被称作“上海野生动物园”,而“外高桥保税区北”也被称为“外高桥保税区北站”等以解决数据不一致的问题。

将以上记录按照卡号排序并分组,即地铁网络的实际出行需求矩。

在某卡号的出行记录的分组内,按照交易金额是否为“0”再次分组,确认两组数量相等,如不等则可能包含错误数据,予以剔除。

在交易金额为“0”和非“0”的两组内分别按照交易时间排序。

按顺序依次提取两组信息,按照数据模型拼接成为某卡号一条完整的进出站记录,即地铁网络的实际出行需求。

数据侠门派

本文数据侠仲志强(下图左二),福特汽车亚太及非洲区高级业务规划分析师 智慧地铁族团队队长。他领队的作品《上海地铁出行数据可视化及运营优化方案》获得了2015“游族杯”上海开放数据创新应用大赛(SODA)“入围奖”。

联系数据侠:zhongalter@163.com

如何加入数据侠

“数据侠”栏目网罗全球最IN的大数据侠客,利用人工智能、机器学习以及各种前瞻算法,打造理性而酷炫的数据可视化盛宴。过去,我们用文字,视频,图片传达信息。现在,我们用大数据阐述事实及其背后逻辑趋势。

DT时代超级英雄正在组队!你也想要成为成为数据侠吗?请将你脑洞大开的数据作品,发到数据侠联盟萌主沈念祖的邮箱:shennianzu@dtcj.com。哦对了,请不要叫沈先生,切记。

(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)

分享这篇文章到