feedback

意见

反馈

back-to-up

回到

顶部

用数据开启通向中土的魔幻之旅 | DT×NYCDSA

NYCDSA

Tianyi Gu   2018-08-09

《指环王》是英国作家、语言学家约翰·罗纳德·瑞尔·托尔金创作的经典长篇奇幻小说。在书中,托尔金虚构了一个极具传奇色彩的“中土”世界,这里有精灵、矮人、巫师、蛮族等等,故事精彩纷呈。数据侠Tianyi Gu尝试通过数据爬取来分析指环王三部曲的电影剧本,用可视化的方法展现中土世界的有趣故事。

我从在网上爬取数据开始我的研究。我的数据主要来自两个网站:lotr.wikia 这个网站上有关于中土世界的人口信息;ageofthering.com 这个网站上有指环王的电影剧本。

在第一个网站上,我爬取了名字,生卒年份,种族,配偶,发色,身高,所属王国等信息。一共涉及1000个角色。在第二个网站,我爬取了三部曲的所有电影台词,以及对应的电影名以及是属于谁的台词。这部分一共生成了2400行数据。

 

第一张柱状图显示了这1000个角色的种族以及性别分布。很明显,这故事里男人居多,事实上,整个故事里只有一个女性侏儒,一个女性兽人。

第二个图显示的是不同种族的平均寿命。就像所显示的,迈雅(Maiar)有非常长的寿命,看起来除非遇到非自然因素,否则他们就不会死亡)。在进一步研究分析后,我发现主要的角色比如甘道夫,萨鲁曼,索龙都是这一种族,并且已经活了超过7000年。

第三张图展示了不同年份中土世界的居民数量。侏儒的人口数量在第四纪元以前看起来很稳定,因为他们寿命很长。而随着三部曲进行,人口结构剧烈变化。

值得注意的是,这些数据只包含了书中写到的人物,并不能代表整个中土世界的人口情况。

上面的图展示了中土世界的婚姻状况。合乎预期的是,霍比特人在所有种族里结婚的比例最高。尽管书中只有提及一名女性侏儒,但仍然有36%的侏儒是已婚。兽人从不结婚。另外,整个故事里也没有同性婚姻,只有一个角色是复婚。

 

上图显示了不同角色在不同电影里说的台词,不同颜色的柱状图代表了三部不同的指环王电影。

对应的词云显示了不同角色用到的单词的频率。弗罗多和萨姆最常说的单词是对方的名字(哈哈)。对比甘道夫和阿拉贡,很容易发现,这些英雄角色最常说的单词是“Will”。尽管分享着同一个躯体,咕噜和史麦戈的性格完全不同,他们对应的词云也证明了这一点。

除此之外,我还对这些角色做了一点情感分析。上面的气泡图展示了对不同角色说的话进行的情感分析结果。梅里和皮聘两个快乐的霍比特人得到了最高的分数。但出乎意料的是,萨姆得到了最高的负分。这可能是因为他是负责给弗罗多训词的人,要告诉他什么不能做,谁不能信任,以及永远小心危险,这些话会让他听起来更加消极。

对于中土世界的探索,我只是略窥一二。对指环王感兴趣的朋友可以访问我提到的两个网站,一起作出更多精彩的数据分析。 

(本文翻译自科技博客 Journey to Middle Earth - Webscraping the Lord of the Rings,文章仅代表作者观点。)

数据侠门派

Tianyi Gu 拥有极强量化分析技术以及批判思维能力。他研究生毕业于纽约大学的城市信息专业,本科毕业于纽约州立大学的精算专业。出于对数据科学无限潜能的热情,他加入NYCDSA,希望学习成为一名数据科学家所需要的技能和知识。

关于DT×NYCDSA

DT财经与纽约数据科学学院是战略合作伙伴。DT×NYCDSA 系合作开设的系列专栏。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

 

分享这篇文章到