feedback

意见

反馈

back-to-up

回到

顶部

给旅行者的百老汇音乐剧指南

NYCDSA

Zhenggang Xu   2018-11-21

美国百老汇,歌剧迷们的天堂,从《猫》到《歌剧魅影》再到《妈妈咪呀》,每一部经典作品都享誉世界。如果你不一位纽约客,或者即将踏上纽约的土地,想一睹百老汇的华美,就需要读一读这篇给旅行者的百老汇音乐剧指南。数据侠Zhenggang Xu通过爬取旅游网站Tripadvisor上百老汇歌剧点评数据,进行深入分析,结果发现了很多有价值的洞察,快跟着Zhenggang Xu的文字了解百老汇音乐剧的秘密吧!

 

项目构想

百老汇是纽约最著名的标志性景点之一。2017到2018年间,就有1380万人观看了百老汇演出。而这个数字已经是纽约人口的1.6倍。数据显示,60%的购票者是来纽约旅行的游客,因此,了解他们对百老汇节目的看法一定很有趣。这其中是否有什么相似的范式,能否用来帮助未来的游客。

为此,我对旅游网站Tripadvisor上最受欢迎的百老汇音乐剧的评论进行了研究,它可能并不是最全面和专业的评论音乐剧的网站,但是上面旅行者的一些反馈是很真实的,当地人可能并不会在上面发表评论,所以如果你也是游客,这些评论可能会有帮助。

(图片说明:Tripadvisor网站上的歌舞剧页面)

方法论

我使用了Python的Scrapy包来进行数据爬取。我选择了最受欢迎的10部百老汇音乐剧,并收集了它们对应的用户评论,以及一些用户信息。对于那些评论数超过5000条的剧目,我只收集了其中一半的评论。最终,整个项目共爬取了大约20000个评论。基于这些数据我完成了我的分析。

分析

1 评论者

我首先对用户的评论数以及这些评论获得的打分(这证明这些评论是有帮助的)进行分析,绘制了对应的分布图。由于评论大多来自普通游客,打分也就不会受到所谓游客是否有名的影响。如我们在图中所看到的,大部分用户发布的评论少于10条,并且没受到多少其他用户的认可。只有一小部分人属于很频繁的评论者,我设计了一个叫做“评论质量”的度量标准(也就是认为这个评论有帮助的投票/该用户提交的所有评论)来简单地对用户评论进行量化(低、中和高质量三类),并且也给挑选出的音乐剧的打分算出一个平均值。

(图片说明:评论数与分数分布图,平均打分分数vs.打分质量的柱状图)

于是,得出一个明显的趋势。可能这背后有两个原因,也许人们更倾向于认为包含一些批评的评论会更值得信赖,或者那些经常评论的人会更加挑剔。

2 季节性特征

之后我研究了具体不同月份的评论数,在下面的柱状图里可以清晰看到它们的趋势。在节日季结束后,2月份的评论数会急剧下滑。如果假设评论数与观众数相关,那么则表明百老汇来自游客的观众数在2月会触底,在春季会渐渐恢复,在7月达到巅峰。因为纽约市暑期游客旅行的人们目的地。下半年会有些波动,但整体良好。

(图片说明:按月度统计的评论数量)

观察上图,我好奇游客的行为是否有相似的一些模式(比如满意度等),是否有最佳观看时间。仔细观察打分情况,全年波动并不大。也就是说对于游客的一个好消息是:你在全年任意时间去百老汇都可以获得相同的体验。

也许你也注意到,整体的观看数很高。因为这是数据样本的问题,这里面有强烈的“幸存者偏差”。百老汇是世界最顶级的舞台,竞争最激烈,能在这样的竞争中“幸存”下来的节目本来就是最强者,每年只有20%的节目能达到收支平衡。因此,我们挑选的最受欢迎的节目,必然在很多方面都表现突出,这样才能够吸引全世界的游客前来观看。

(图片说明:按月份统计的歌剧评分分数)

而我试图解答的另一个问题是,这些评论里是否只有赞美而缺少不同的见解。事实并不如此,下面我使用图云的方式来分析相关的评论。

3 评论分析

首先我将所有评论制作了一个图云。

从里面可以看到很多关键词,比如表演,歌曲,故事,演员等等。但是很难从中找到什么相似的范式。我们需要对单个的剧目进行分析。

首先我们看看Come from away这部剧,它去年三月登陆百老汇,并在Tripadvisor上获得最高评价。它根据9-11事件后一个星期,发生在远离美国的一个加拿大小镇的真实故事改编,它希望让人们在最黑暗的时刻也不要忘记希望。

(图片说明:Come from away的评论词云)

从这个词云中,可以看到,故事是最重要的关键词。说明观众关注的是故事本身。而音乐和演员也受到很多关注。这部剧没有过多的道具,太浮华的舞台,它最吸引人的就是他讲故事的方式,十几个演员讲述了一个温暖人心的故事。

接下来,我们分析了歌剧魅影,这个百老汇演出历史最久的音乐剧之一。从词云来看,人们对它的音乐最为着迷,许多人,包括我自己正是因为它而喜欢上了音乐剧。令人惊讶的是,人们还多次提到“座位”这个词,也许是因为它的演出场地Majestic Theartre是个巨大的剧院,你坐在哪里会直接影响你的观影体验。与Come from away形成鲜明对比,《歌剧魅影》的观众不怎么关注故事、演员、音乐成为最重要的因素。

(图片说明:《歌剧魅影》的评论词云)

下面的词云来自剧目《狮子王》。

(图片说明:《狮子王》的评论词云)

尽管狮子王的音乐也非常出色,而且它的故事也是每个人都耳熟能详的,但这却都不是人们关注的焦点。服装成为评论最多的关键词。这也确实是它成功的关键。音乐和故事对观众来说不再是什么新鲜事之后,华丽的服装再次吸引了观众,尤其是小朋友。坐在剧院里与看电视的体验完全不同。除此之外,门票多次出现,可能是因为它的价格通常都很昂贵。

(图片说明:《汉密尔顿》的评论词云)

接下来是近年来最出名的剧目——《汉密尔顿》。人们为何喜欢它?如果你以为是因为它的音乐,历史,故事甚至里面的说唱,那你就错了。实际上,门票依然是关注最多的词。在我看来,这部剧的确是天才之作,但是当人们更多低关注的是门票而不是节目本身时,我想它并不是件好事。

如果我们把这四个词云放在一起看。

可以很容易看到,这四个剧目在评论中有完全不同的关键词。百老汇剧目种类多样,观众总能找到自己喜欢的剧目,不过,音乐依然是所有剧目中都重要的元素。

此外,如果剧目是在更大的剧院演出,那么人们就会更多地提到座位这个关键词。同样,如果票价越贵,人们也会更多地关注门票。对比来看,Come from away 的观众就可以更集中关注剧目本身,而其他的剧目,观众可能就会被其他因素分心。

我们已经分析了大部分的点评,他们普遍偏正向,那么那些批评的评论是什么样的呢?下面是负面评论的一个简单的词云(打分在1和2分的评论)。

(图片说明:所有数据中负面评论的词云)

我们可以看到,除了对票价的不满,候补演员(understudy)也被提及了很多次。我不认为是候补演员一定就表演不好,但当人们没能看到自己喜欢的演员时,他们自然会感到不满。而且,当你把高票价也考虑进内,这肯定加剧了大家不满的情绪。我仔细看了一些评价,不少人抱怨自己花了高价但最后却看的是候补演员的表演。所以大家决定前应该做些功课,看一看演员名单。

总体

从这个小研究可以得到几个结论:

1 百老汇的演出丰富多样,你总能找到你的菜。在购票前需要做一些功课,确定你最喜欢的演员的排期。

2 如果你已经花费了一大笔钱买机票,订酒店来到纽约,那么你就别期待在百老汇上节约多少钱了。很多的剧院,不同价位的位置带来的观影体验完全不同。你一定不想最后成为那个在tripadvisor上评论称“我本应该买个更贵的座位”的人。

 (以上内容编译自纽约数据科学院博客A Traveler’s Guide to Broadway Musicals,仅代表作者观点)

数据侠门派

Zhenggang Xu 拥有计算化学的学位,并在深水探测领域工作多年。计算技术对于他的工作带来很大帮助,他相信数据的力量,现在他对于使用数据科学工具来理解商业世界产生了更多兴趣。

关于DT×NYCDSA

DT财经与纽约数据科学学院是战略合作伙伴。DT×NYCDSA 系合作开设的系列专栏。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

 

 

 

分享这篇文章到