作家
登录

Python分布式抓取和分析京东商城评价

作者: 来源: 2017-04-25 17:33:52 阅读 我要评论

Python分布式抓取和分析京东商城评价

既然商批评价对于花费者选购商品而言至关重要,那么我想尝尝可以大年夜这些评价信息中获取到如何的价值,来赞助花费者快速获取到关于该商品的一些重要信息,给他们的购物带来加倍靠得住地包管?

所以,我认为,一种快速、周全、高提炼度和高比较度的信息获取和展示方法将会异常须要。 于是,我采取分布式快速抓取京东的评价信息,然后应用 pandas 对抓取到的数据进行分析。

话不多说先附上应用地址

体验地址:http://awolfly9.com/jd/

想要分析京东商城的商批评价信息,那么须要做些什么呢

  • 采取分布式抓取,尽量在短时光内抓取须要分析的商品足够多的评价信息
  • 将抓取到的评价信息都存储到数据库
  • 大年夜数据库中掏出所稀有据进行数据分析
    • 生成好评的词云,并且获取关键字
    • 生成中评的词云,并且获取关键字
    • 生成差评的词云,并且获取关键字
    • 分析购买该商品不合色彩的比例,生成柱状图
    • 分析购买该商品不合设备的比例,生成柱状图
    • 分析该商品的发卖数量和评论数量和时光的关系,生成时光则线图
    • 分析该商品不合省份购买的的比例,生成柱状图
    • 分析该商品不合渠道的发卖比例,生成柱状图
  • 应用 Django 搭建后台,将数据抓取和数据分析连起来
  • 前端显示数据抓取和分析结不雅

分布式抓取京东商城的评价信息

采取分布式抓取的目标是快速的在短时光内尽量抓取足够多的商批评价,使分析结不雅更精确

  1. 找出评价请求 URL 规律,获取到如下 URL 组合链接
  2. 应用 Chrome 插件 Postman 测试链接是否可用,发明京东获取评价信息并没有验证 Cookie 之类的反爬办法
  3. 开端编码应用 scrapy 抓取京东商城的商批评价信息并存入数据库以备应用

数据分析

  1. 大年夜数据库中掏出响应数据,开端分析
  2. 应用 python 的扩大库 wordcloud 分别提取好评、中评、差评的关键字,并且生成响应的词云图片
  3. 分析该商品不合色彩的销量占比,并且生成柱状图,例如 iphone7 的不合色彩金色、玫瑰金色、银色、黑色、亮黑色、还有最新出的红色的┞芳比
  4. 分析该商品不合设备的销量占比,并且生成柱状图,例如 iphone7 32G 、 64G、128G 存储
  5. 分析该商品发卖和评论时光并且生成折线图,分析出商品在什么时光最畅销
  6. 分析用户购买该商品的渠道,例如用户经由过程京东 Android 客户端、微信京东购物、京东 iPhone 客户端购物的比例,并且生成柱状图
  7. 分析购买该商品的用户的地区省份。例如北京、上海、广州那个城市在京东上购买 iPhone7 的人更多
  8. 将以上分析结不雅都存储保存

Django 后台 WEB

应用 Django 搭建一个简略单纯的后台 jd_analysis,将分布式抓取数据和数据分析连起来,并且将分析结不雅返回前端显示。

  1. jd_analysis 供给一个接口接收用户请求分析的京东商城商品的 URL 链接
  2. jd_analysis 接收到商品链接后开启爬虫过程开端抓取须要分析的商品的名称和评价数量
  3. 组合出完全的评价链接插入到 redis 中,实现分布式爬虫抓取,尽可能在短时光内抓取足够多的该商批评价信息(我如今是 30s 时光大年夜概可以抓取 3000 条评价信息)
  4. 主办事器等待必定的抓取时光,例如主办事器等待 30s,30s 后必定要给前端返回分析结不雅,所以等 30s 后清空 redis 中该商品的链接,大年夜办事器没有攫取不到须要抓取的链接也就主动封闭
  5. 开启分析过程,开端分析抓取到的所稀有据,并且生成搁笔等信息

前端展示

在客户端第一次请求时,生成一个 GUID,并且存储在 cookie 中。然后开启一个准时器,带上 GUID 赓续的向 jd_analysis 后台请求结不雅。jd_analysis 后台应用请求的 GUID 大年夜 redis 中获取抓守信息和分析结不雅的所有内容,返回给前端。前端显示请求到的结不雅。

最后附上两张效不雅图

购买和评论时光┞粉线图

互联网购物如今已经是异常广泛的购物方法,在互联网上购买商品并且应用之后,很多人都邑回过火来对本身购买的商品进行一些评价,以词攀来表达本身对于该商品应用后的看法。商批评价的短长对于一个商品的重要性显而易见,大年夜部分花费者都以此作为快速评判该商品德量好坏的方法。所以,与此同时,有些商家为了获得好评,还会做一些 “好评优惠” 或者 “返点” 晃荡来刺激花费者评价商品。

购买渠道柱状图

大年夜功告成

以上就是完全的抓取京东商品的评价信息并且应用 pandas 分析评价然后应用 Django 搭建后台前端显示抓取和分析结不雅的所有步调。

【编辑推荐】

  1. 数据分析该分析什么
  2. 数据分析机械进修的泰坦尼克案例-牛刀小试
  3. 百万自媒体大年夜V的数据分析师成长线路,薪水过万难吗?
  4. 数据分析的一些常见问题
  5. 数据分析与可视化,你靠什么搞定?
【义务编辑:枯木 TEL:(010)68476606】

  推荐阅读

  深入理解JavaScript错误和堆栈追踪

有时刻人们并不存眷这些细节,但这方面的常识肯定有效,尤其是当你正在编写竽暌闺测试或errors相干的库。例如这个礼拜我们的chai中出现了一个令人赞叹的Pull Request,它大年夜大年夜改进>>>详细阅读


本文标题:Python分布式抓取和分析京东商城评价

地址:http://www.17bianji.com/lsqh/34954.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)