feedback

意见

反馈

back-to-up

回到

顶部

我的二手车究竟值多少钱 | DT×NYCDSA

NYCDSA

Anthony Parrillo   06-17

当你厌倦了混乱的二手车市场、听腻了各种二手车网站广告时,是时候利用数据来做一次靠自己的分析了。数据侠 Anthony Parrillo 利用自己的爬虫能力,尝试分析了二手车市场的价格问题,也许能为同样爱好数据的你,带来一些启发。

也许你曾尝试卖掉一辆车,却发现无法得到你想要的价格;也许你曾尝试买一辆车,结果却发现价格贵得离谱;又或者,你以理想的价格买到了一辆车,却发现这车有许多乱七八糟的表面看不到的问题。

在这个网络爬虫的项目里,我尝试分析二手车的价格到底受什么因素影响。我爬取了Carfax网站。用户可以在上面查询一辆车的过往历史,以避免买到有问题的车。

我使用Selenium爬取了符合下面条件的车的url网址:首先,在纽约市周边50英里内售出;其次,价格低于15000美元。

在收集到全部url后,我使用scrapy来进一步收集了每个车的具体信息。收集到的价格指的是经销商的售价,不是现在的市场价格。由于时间维度的限制,我一共爬取了6747辆二手车的数据。

我对数据进行了一些分析。首先,我做了一个价格和年代的散点图。

然后是一个价格和年代的箱线图。

以及一个价格和年代的柱状图。

我好奇2015年时,为何价格随年代上升而下降的趋势没有延续。在研究每年的汽车清单数时我发现了有趣的事情。

因为许多车是出租3年再交回的,所以车龄在3年的被出售的车的数量高出很多。这可能是2015年价格高出其他年份的一个原因。转卖二手车另一个重要的影响因素是里程数。下面是一个出售汽车按里程数分类的直方图。

价格与里程数关系的色码图(hex chart):

当比较生产商时,由于此前的过滤条件设定在低于15000美元,所以呈现出朝奢侈品牌的偏斜。下面的图显示了各个生产商的转卖价格的分布。

下面是不同车型的价格分布。

对于那些在乎环保的用户,这是一个不同动力类型的车的价格分布。

 

不同动力传送系统的分布:

 

我使用双样本t检测比较了自动挡和手动挡的购买价格,看一看两者的平均值是否在统计学上意义上有不同。它们在统计学上确实不同。自动挡的比手动挡平均贵了1300美元。

许多人关心购买的车的文件(title)上记录的状况。一个有趣的比较是那些没有事故记录的车和有过事故的车:

 

很明显,没有事故记录会给价格带来很大影响。双样本t检测显示,平均值上的差距在1150美元。

最终,基于所有数据,下面是各款车型的二手转卖价格数据分布:

一些简单的结论包括:自动挡比手动挡贵出1300美元;没有事故历史的二手车比有事故历史的贵1150美元;箱式轿车比其他车型的二手车卖的好等。

这些结果不仅对于那些想要购买二手车的人有参考价值,而且也对想要买新车的,纠结于买车还是租车的,以及考虑是否要卖掉现在有的车的人有价值。

(本文编译自数据博客 How much is my used car worth? 仅代表作者观点。)

数据侠门派

本文数据侠 Anthony Parrillo。Anthony热衷于数据分析,擅长利用批判性思维和创新性的方式从数据中找到解决问题的办法。

 

关于DT×NYCDSA

DT财经与纽约数据科学学院是战略合作伙伴。DT×NYCDSA 系合作开设的系列专栏。

 

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

分享这篇文章到