作家
登录

如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

作者: 来源: 2017-10-10 15:04:14 阅读 我要评论

  •                 text = re.sub('<.*?>|答复<.*?>:|[\U00010000-\U0010ffff]|[\uD800-\uDBFF][\uDC00-\uDFFF]','',user['text']) 
  •                 print(text) 
  •                 likenum = user['like_counts'
  •                 print(likenum) 
  •                 source = re.sub('[\U00010000-\U0010ffff]|[\uD800-\uDBFF][\uDC00-\uDFFF]','',user['source']) 
  •                 print(source + '\r\n'
  •                 comment_num+=1 
  •             i+=1 
  •             time.sleep(3) 
  •         except
  •             i+1 
  •             pass 
  •     else
  •         break  
  • 3.python中数据库的攫取与写入

    固然微博爬虫大年夜大年夜进步了数据获取量,但也因为是爬虫而轻易被新浪封禁。这里停止轮回的断定是收集状况不是200,但当微博发明是爬虫时,微博会返回一个网页,网页中什么本质内容督杈有,这时刻法度榜样就会报错,而之前爬到的数据,就啥也没有了。

    然则如不雅爬一会,保存一次数据,这数据量要一大年夜起来…冷冷的文件在脸上胡乱地拍…我的心就像被…这时刻我们就须要用到数据库了。

    数据库,顾名思义,就是存放数据的仓库,数据库作为一个成长了60多年的治理体系,有着宏大年夜的应用范畴和复杂的功能……好了我编不下去了。

    在本文中,数据库的重要感化是AI式的excel表格(●—●)。在爬虫进行的过程中,爬到一个数就存进去,爬到一个数就存进去,即使爬虫法度榜样运行中断,中断前爬到的数据都邑存放在数据库中。

    大年夜多半数据库都能与python对接应用的,米酱知道的有mysql、sqlite、mongodb、redis。这里用的是mysql,mac上mysql的安装,治理数据库的软件Navicat应用赞助,其他体系本身找吧,安装应用过程中有啥问题,请不要来找我(逃

    根据膳绫擎的代码,在navicat中创建数据库、表和域以及域的格局。在Python法度榜样中添加代码。

    1. conn =pymysql.connect(host='办事器IP(默认是127.0.0.1)',user='办事器名(默认是root)',password='办事器暗码',charset="utf8",use_unicode = False)    #连接办事器 
    2. cur = conn.cursor() 
    3. sql = "insert into xue.xueresponse(comment_id,user_name,created_at,text,likenum,source) values(%s,%s,%s,%s,%s,%s)" #格局是:数据名.表名(域名) 

        推荐阅读

        国内最火的 HTML、CSS、JavaScript 开源项目 Top 榜,你知多少?

      操作体系:跨平台 对于开辟者而言,想要着手前端开辟,HTML、CSS 和 JavaScript 是三项必备的基本技能。而若何事半功倍地控制好这些常识?经由过程懂得当下火热的开源项目不乏为最佳进修姿>>>详细阅读


      本文标题:如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

      地址:http://www.17bianji.com/lsqh/37761.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)