feedback

意见

反馈

back-to-up

回到

顶部

facebook效应:让信息在社交网络中流行起来,真的重要么?(上篇)| DT×NYCDSA

NYCDSA

· William Kye

编辑 | 程一祥   05-17

在 facebook 上的曝光重要么?是的,很重要,它几乎让对应话题在维基百科页面的搜索率翻了一倍,让“交口相传”,变成了“争相搜索”。

2018年2月21日,美国网红 Kylie Jenner 在个人推特上发帖:“是不是大家都不再打开Snapchat了?还是只有我… 呃这真令人悲伤。”

在这条推文发出后24小时内,Snapchat 的股价大跌6%,大概抹去16亿美元市值。

(图片说明:凯莉·克莉丝汀·珍娜是一位美国电视名人、模特儿她第一次出现在萤光幕是在美国E!频道的真人秀《与其卡戴珊姊妹同行》,右为她的推特原文;图片来源:推特)

Kylie Jenner的推特有约2500万粉丝,单单这一条推特就得到了超过37万点赞和将近7.5万次的转发。她的这条转发,就是社交媒体吞噬商业运作的缩影——这些行为有时可以带来巨大利益,而有时,就像发生在Snapchat身上的那样,会带来巨大伤害。

在我的项目中,我尝试研究两个问题。第一:在社交媒体上流行的事情会带来什么影响?以及,如何提高一件事情在社交网络上流行起来的可能性。我选择的研究对象是最大的社交媒体公司——facebook。

这一话题我将分为上下两篇来写,在这篇文章中,我将集中研究一家公司在 facebook 上获得的曝光所带来的影响。

各类公司一直在撰写内容、分享链接以及评论帖子,以期提高自己在 facebook 的曝光度,进而提升自己的受欢迎度。但曝光增加带来的真实影响究竟是什么呢?

研究这一问题的最好方式,就是看一看 facebook 平台上的 “Trending” 列表,这是 facebook 用户阅览最多的部分。2014年,facebook 在主页增添了 “Trending” 的功能,将用户们正在讨论和分享的话题以列表形式展示出来。决定这一列表的真实算法是怎样的,在我这一项目中并不重要,不可否认的是,进入 Trending 列表的话题会被所有2亿 facebook 用户(至少在美国是这样)看到。

所以,如果能找到一种方法来衡量一件事出现在 Trending 后带来的影响,那么我们就可以了解在 facebook 平台的曝光有多么重要。但这不简单。除非是 facebook 雇员或支付一笔费用,否则一般很难知道确切的单个帖子的点击量。我需要公开的而且直接与之有关的信息。所以我转向维基百科。

在 facebook 上流行的话题有一个共同模式,就是人们在之后会希望了解关于它的更多信息。比如,一个演员在 facebook 上因为结婚或卷入一场丑闻而流行起来,我的第一反应就是去获取更多信息。根据谷歌的公开说法,当一个人被搜索时,10次中有9次第一个弹出的结果是他的维基百科页面。所以,如果我可以将 facebook 的 Trending 与维基百科的阅读情况建立颗粒级的关联,我可能就得到一个研究 facebook 流行效应的很棒的方法。更棒的是,维基百科会公布每个页面的每小时阅读量。

(图片说明:facebook 中的 Trending 板块)

所以,我记录下了从1月30日到2月5日一周的 facebook 的 Trending 数据。抓取时间为美东时间每天早上8点,这是 facebook 用户最活跃的时间点之一。其次,我下载了同一时间段维基百科各个页面的每小时阅览量。

接下来的工作就是将这些数据进行准确结合。

维基百科页面数据的下载和整理耗费不少时间,这包括:首先,撰写一个脚本来自动下载维基百科上对应的数据;其次,使用正则表达式将facebook上的流行话题转为一个独有字符串,以对应它的维基百科页面;然后,建立一个循环,完成下载,按照当日facebook的Trending情况对这些数据进行分类,然后再将每个文档按照一个组织好的层级结构进行组合。

最终,基于一周的 facebook Trending 数据,我得到1200多观测数据。

所以,一个话题在 facebook 上的流行,会影响它的维基百科页面阅读量么?让我们来看看结果。

从上图来看,好像是的。y轴是阅览量,x轴是一天的不同时间段(对应的图上的点代表这一时刻的累积阅览量),蓝色线代表一个话题在 facebook 上流行,黑色线代表流行的话题的平均维基百科页面浏览量。可以看到,蓝色线以后,黑色曲线有一个陡增的变化,这说明:一个话题流行后阅览量急剧增加

然而,聚合图会模糊每个具体话题的独特情况,因此我制作了每一个话题对应的曲线图。

总的来看, 可以看到,一个在facebook上流行的话题,会在维基百科上也出现浏览量的激增,几小时后才掉头向下。几个很突出的例子包括:

对这些不同话题的表现上的分析则更加有趣:

(图片说明:红色表示政治话题,绿色表示流行文化话题,蓝色表示体育话题)

我们把 facebook 的流行话题进行分组,划分为三类:政治、流行文化和体育,整体上维基百科的阅览增长趋势是相似的。然而,体育类话题与其他有明显区别:它在facebook上流行后,在维基百科上阅览了增加的最快,而当风潮过去,它的回落也是最剧烈。所以,facebook带来的效应对各种不同话题还是不同的。

那么,这些不同影响的程度有多大?我做了两个分析。首先,我制作了一个话题在流行前后维基百科每小时页面浏览量变化的箱线图,接下来,我对它们进行了T检验(即用T分布理论来推论差异发生的概率,适用于这种样本含量较小的情况)。

结果显示,当p值小于0.001时,流行后的维基百科浏览量的平均值比流行前要高很多。

不过,尽管如此,t检测并不说明在 facebook 上流行就是维基百科浏览量变化的唯一原因。下面就是一个可以用来反驳的假设关系:

我们假设的关系是:

(图片说明:真实事件发生——在facebook Trending流行起来——维基百科浏览量变化)

一种可能的反驳为:

(图片说明:真实事件发生——在facebook Trending流行起来(上);或者,维基百科浏览量变化(下))

所以要弄清楚这一点,我们可以进行一个思想实验。其中,实验组(treatment group )就是我们所说的逻辑:现实世界发生了一件流行的事件,之后 facebook 上也引发讨论。而控制组则是,现实世界发生了流行事件,但 facebook 上并没有流行起来。当我们使用观察数据从而让两者可控时,这样的任务是可以完成的。

另外,我们还可以让两个对比组只改变一项变量:在 facebook 上流行。

当然,我们无法直接操控一个事件是否在 facebook 上流行,但是我们可以用另外一种方法替代:拿在 twitter 上流行但并未在 facebook 上流行的事件做对比。2017年1月 facebook 对流行话题的算法进行调整,此前备受批评的千人千面,改为同一地区的用户会看到同样的流行话题。因此,如果我们可以拿到 twitter 流行话题的历史数据,就可以进行对比。

于是我重新收集数据。我爬取了收集记录 twitter 流行话题的网站 trendogate.com 的数据。我在时间上选择了 facebook 调整算法前两周的数据,以让它们更加有可比性。

之后我再次对对应的维基百科浏览量做了相似处理。两者对比分析得到下面这组图。

我也再次进行了相同的T检测,结果显示当p小于0.05,平均值方面就会区别不明显。

因此,对比 facebook 的实验组,可以说明,话题在 facebook 上流行会给他对应的维基百科界面浏览量带来明显提升,但 twitter 上流行则并不会带来明显变化。

因此回到最初的问题:在 facebook 上的曝光重要么?是的,很重要。它几乎让对应话题在维基百科页面的搜索率翻了一倍。

那么问题来了,既然引爆社交网络这么重要,那么我们为了「制造流行」,我们究竟应该做些什么呢?敬请期待下篇的解答。

(本文编译自技术博客 The Facebook Effect,仅代表作者观点。)

数据侠门派

本文数据侠是William Kye,喜欢用数据解决问题。他拥有美国圣母大学社会学博士学位,对分析和理解人类行为有浓厚兴趣并富有经验。Kye不只将数据看作生硬的数字,他还希望将其置于人类社会行为的大背景下进行理解。他此前做过大量的人口数据与其他数据的交叉分析,比如社区自杀率与种族构成的关系,私立学校的数量与社区士绅化趋势的关系等。Kye掌握R语言、Python等,同时希望将数据分析以有洞见的故事形式展现出来,并将自己的能力用在解决现实世界的难题上。

关于DT×NYCDSA

DT财经与纽约数据科学学院是战略合作伙伴。DT×NYCDSA 系合作开设的系列专栏。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

分享这篇文章到