feedback

意见

反馈

back-to-up

回到

顶部

七夕来了,是时候喂一波“狗粮”了 | DT×NYCDSA

NYCDSA

NYCDSA   2018-08-17

今天的狗粮,真的是狗粮哦!作为宠物爱好者,数据侠 Summer Sun 一直很关心自己宠物的口粮问题。她爬取了美国宠物市场上的食品信息,用数据分析的方法为自己的宠物做了一份科学的食物分析。

2017年第一季度,美国市场的宠物食品销量同比增长40%。食品种类也更加多样。作为一个养宠物的人,我总是很纠结如何挑选更好的宠物食品,因为我的毛茸茸的伙伴有时候会对我给它买回来的食物嗤之以鼻。于是我决定展开这个爬虫项目,来进一步了解宠物食品。我的一些发现不仅会对宠物主有帮助,也会有益于刚刚进入这个市场的供应商们。

在2016年全美宠物市场中,市值159.2亿美元的宠物食品市场占了大头。但是这个市场还是高度集中化的,几大厂商(雀巢,马氏, Big Heart,高露洁,蓝爵)占据了70%的市场份额。所有的厂商都要按照消费者的需求进行设计,而根据问卷调查的结果,消费者最关心的是产品的“高品质”问题。

什么样的产品算是高质量的宠物食品?我们研究中的假设是,宠物食品的品质取决于它的材料。

我的分析会从营养成分分析开始,它会显示整个食物的营养成分构成。

(图片说明:宠物食品的营养成分构成)

市面上有4500多种产品,我从美国领先的在线零售网站 chewy.com 上爬取了猫粮和狗粮的数据。下面是一个爬取数据的样本。我用 Python 包 Pandas 对数据进行了预处理,使用复杂的多步骤数据处理方式,将宠物食品成分进行了单独区分。

(图片说明:爬虫下的数据示例)

基于刚才提到的假设,我的研究包括以下三步:首先,比较营养成分分析中的基本数据,以查看它们的营养构成信息;其次,识别被用户视为“好品质”和“差品质”产品;最后观察不同品质产品的区别。

实验中用到的方法包括:Scrapy(一种python爬虫框架),k-平均算法(K-mean Clustering),方差分析(ANOVA test),散步图(Scatter text)。

我对大约4500个产品的数据进行了预处理。我们基于大约70种不同的原材料,使用无监督学习的方法对产品进行了聚类处理。我们使用k-平均算法,基于不同原材料所占的比例将它们分成5个部分。

数据通过主成分分析法(PCA)降维算法降成两个维度。下图展示了5个数据群集的情况。

(图片说明:PCA后的数据集群情况)

这部分的结果是基于这样的假设:产品的评价数量和评级情况反映了它的品质(也就是上文提到的两个评价维度)。为了按照品质来区别不同产品,我使用了方差分析(ANOVA test)。观察得出,下图中3号和4号数据群比1和2拥有更高的评级和更多的用户评论。这说明,事实上,产品品质的确取决于所用材料。

(图片说明:5个数据群的评级(1星到5星)分布
(图片说明:5个数据群的产品评论数量

数据群3、4被认为是好品质的产品,1,2被视为差品质的产品。0号数据群表示缺失评论数据的例外情况。

下面是产品材料出现的频率图。

(图片说明:好产品和坏产品中出现的材料的不同频率)

一些只频繁出现在“好品质”的产品中的材料包括:鱼油(Lutine) 、甜味剂(FOS)、纤维 (Mannan-oligosaccharides or MOS)等。

一些只出现在“差品质”的产品中的材料:防止胃流感(Gastrointestinal )、烟酸(Niacin、钾(Potassium)。

其他材料也被按照好产品和坏产品出现频率进行了比较:好产品中,葡萄糖胺和软骨素的出现频率更高。差产品的水分含量会更高。因为水分更高会挤占其他如蛋白质等营养元素的比重。这解释了为何流食没有干粮受欢迎。

(图片说明:宠物食品原料分布说明。)

所以,我的结论是:功能和营养水平是区分产品品质好坏的主要因素。健骨、明目,更多的蛋白质/纤维素,以及更好的味道是好产品的反馈中被消费者提及最多的元素。而纤维之外的消化支持,以及更高比例的水分则更频繁出现在“差品”的用户反馈中。

食物材料导致了好坏品质之分。这些发现可以帮助生产商制造更多“好品质”的产品,更好的跟上快速变化的宠物食品市场。由于时间有限,我的项目的关注点比较有限。未来的研究可以加入更多考量因素,比如价格,功效,用户评价以及其他产品信息。

(本文翻译自科技博客 How to Recommend Pet Food Product from Unsupervised Learning ,文章仅代表作者观点。)

数据侠门派

Summer Sun 对数据科学充满热情,她有三年的数据行业经验,曾为大型金融机构分析海量用户数据。她喜欢挑战各类有挑战的课题。

关于DT×NYCDSA

DT财经与纽约数据科学学院是战略合作伙伴。DT×NYCDSA 系合作开设的系列专栏。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

分享这篇文章到