运行python法度榜样,大年夜概爬了2w条及时评论,新浪微博的反爬照样很强大年夜的,有俩个解决办法:改换IP和切换账号,IP代劳的应用办法我以前有写过,账号可以在X宝购买,然则!_(:зゝ∠)_因为本文的作者是一个肥肠贫穷肥肠抠门并且身患宿疾(懒癌)的人……2w条数据也是有研究价值的对纰谬(((;꒪ꈊ꒪;))),不如我们就如许持续我们研究吧(((;꒪ꈊ꒪;)))……
在进行下一步研究之前,我们还要将数据库中的内容攫掏出来,python中数据库的攫代替码也很简单。
- conn =pymysql.connect(host='办事器IP',user='用户名',password='暗码',charset="utf8") #连接办事器
- with conn:
- cur = conn.cursor()
- cur.execute("SELECT * FROM xue.xueresponse WHERE id < '%d'" % 20000)
- rows = cur.fetchall()
如许之前爬取的信息就被攫掏出来了,然则前面也说了,微博爬虫翻页时返回数据条数随机,所以会出现反复的状况,所以攫取之后,须要用if…not in语句进行一个数据去重。
- for row in rows:
- row = list(row)
- del row[0]
- if row not in commentlist:
- commentlist.append([row[0],row[1],row[2],row[3],row[4],row[5]])
完全代码在文末。
4.天然说话处理NLP
NLP是人工智能的一个范畴,可以经由过程算法的设计让机械懂得仁攀类说话,天然说话也属于人工智能中较为艰苦的一环,像中文┞封么博大年夜精深、变幻莫测的说话更是NLP中的一大年夜可贵,python中有很多NLP相干的模块,有兴趣的盆友可以经由过程用python实现简单的文本情感分析初探NLP。
我参(ban)考(yun)了一些现成的情感分析算法,对爬取的评论进行分析,缺点率肥肠高_(:зゝ∠)_,这可肿么办?难道要从新设计算法?米酱仿佛碰到了人生中第一个因为语文没学好而激发的重大年夜问题……
当然像米酱如许灵(lan)活(duo)的姑娘,天然是很快发清楚明了python中较为出名的一个中文NLP库:snowNLP。snowNLP调用的办法比较简单,源码中具体说清楚明了调用办法,和生成结不雅。
- def snowanalysis(textlist):
- sentimentslist = []
- for li in textlist:
- s = SnowNLP(li)
- print(li)
- print(s.sentiments)
- sentimentslist.append(s.sentiments)
这段代码中获取了攫取数据库后由评论主体text生成的列表文件,并依次对每一个评论进行情感值分析。snowNLP可以或许根据给出的句子生成一个0-1之间的值,当值大年夜于0.5时代表句子的情感极性偏向积极,当分值小于0.5时,情感极性偏向消极,当然越偏向俩头,情感越明显咯,让我们来看看测试评论的结不雅。
推荐阅读
国内最火的 HTML、CSS、JavaScript 开源项目 Top 榜,你知多少?
操作体系:跨平台 对于开辟者而言,想要着手前端开辟,HTML、CSS 和 JavaScript 是三项必备的基本技能。而若何事半功倍地控制好这些常识?经由过程懂得当下火热的开源项目不乏为最佳进修姿>>>详细阅读
本文标题:如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
地址:http://www.17bianji.com/lsqh/37761.html
1/2 1