作家
登录

如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

作者: 来源: 2017-10-10 15:04:14 阅读 我要评论


若何科学地蹭热点:用python爬虫获取热点微博评论并进行情感分析

然后我赶紧去存眷了一下比来老薛的消息…在感触感染了剧情的复杂和案情的扑朔迷离之后…我默默地进修了若何浏览合同…若何应用ELA分析图片…若何写作文…若何查别人的银行流水…常识点有点多…让我缓一会…

这里有几点解释:

  1. 设置爬取距离时光之后,微博爬虫被禁的概率降低了很多(特别是晚上)
  2. 新浪每次返回的json数据条数随机,所以翻页之后会出现数据反复的情况,所以用到了数据去重,这会在后面说。
  3. 在text和source中添加了去除emoji神情的代码(折腾了良久写一向数据库,差点就大年夜删库到跑路了/(ㄒoㄒ)/),同时也去除了掺杂个中的答复他人的html代码。
  4. 我只写了攫取数据,没有写若何保存,因为我们要用到数!据!库!辣!(这是重点!敲黑板)

甩锅の声明

  1. 1.本数据节选改过浪热点微博评论,不代表本人任何不雅点
  2. 2.本人不接收任何非技巧交换类批驳责备(夸我可以)
  3. 3.本次分析结不雅因技巧问题存在必定误差(是惹人的包的问题,不是我的)
  4. 4.本次拔取热点微博为一个月以前的(翻译一下:热点已经冷了,我只是个写教程的)
  5. 顶锅盖逃

继前次更完“国庆去哪儿”文之后,被很多多少编程相干的"大众,"号翻了牌子_(:зゝ∠)_,让我过了一把v的瘾,也让我加倍尽力的想要装(消音)。

在我专一进修mysql、scrapy、django预备下一波吹水的时刻,有人说,你去趴下老薛的微博呀,还能蹭个热点,这让勤(mo)奋(mo)学(kou)习(jiao)的我停下了寄几敲代码的手。

所以呢,此次的主题是分析老薛最新微博的评论,分析评论粉丝们的心境状况,且听我娓娓道来。

1.新浪微博API

在经历了几回爬虫被禁的悲哀(真的很痛)之后,我学会了在爬网站之前先查有没有API的“优良”习惯。新浪作为一个大年夜厂,怎么会不推出新浪微博API呢,面向开辟者新浪有本身的开放平台,这里是python调用微博API的办法,下面是经由过程登录App_key和App_secret方法拜访微博API的代码,代码是基于py2的。py3对weibo模块应用存在必定问题。

  1. from weibo import APIClient  
  2. import webbrowser 
  3.  
  4. import sys 
  5. reload(sys) 
  6. sys.setdefaultencoding('utf-8'
  7.  
  8. APP_KEY = '你的App Key ' #获取的App Key  
  9. APP_SECRET = '你的AppSecret' #获取的AppSecret  
  10. CALLBACK_URL = 'https://api.weibo.com/oauth2/default.html' #回调链接  
  11.  
  12. client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)  
  13. url = client.get_authorize_url()  
  14. webbrowser.open_new(url) #打开默认浏览器获取code参数  
  15.  
  16. print '输入url中code后面的内容后按回车键:' 
  17.  
  18. code = raw_input() 
  19. r = client.request_access_token(code) 
  20. access_token = r.access_token 
  21. expires_in = r.expires_in 
  22. client.set_access_token(access_token, expires_in)  

知道若何登录API了,辣么若何调用API爬单条微博的评论呢?一行代码搞定。

  1. r = client.comments.show.get(id = 4154417035431509,count = 200,page = 1) 

所有关于单条微博的评论信息都在r.comments中了,这里须要对比微博API文档,微博API有声明调用微博评论API须要获取用户授权,然则捏,只要知道单条微博的id,就可声调用这个API了,关于单条微博的id若何获取在后面会说(小声一点,切切别让微博知道,万一封了呢)。

 1/8    1 2 3 4 5 6 下一页 尾页

  推荐阅读

  国内最火的 HTML、CSS、JavaScript 开源项目 Top 榜,你知多少?

操作体系:跨平台 对于开辟者而言,想要着手前端开辟,HTML、CSS 和 JavaScript 是三项必备的基本技能。而若何事半功倍地控制好这些常识?经由过程懂得当下火热的开源项目不乏为最佳进修姿>>>详细阅读


本文标题:如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

地址:http://www.17bianji.com/lsqh/37761.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)