3.python中数据库的攫取与写入
固然微博爬虫大年夜大年夜进步了数据获取量,但也因为是爬虫而轻易被新浪封禁。这里停止轮回的断定是收集状况不是200,但当微博发明是爬虫时,微博会返回一个网页,网页中什么本质内容督杈有,这时刻法度榜样就会报错,而之前爬到的数据,就啥也没有了。
然则如不雅爬一会,保存一次数据,这数据量要一大年夜起来…冷冷的文件在脸上胡乱地拍…我的心就像被…这时刻我们就须要用到数据库了。
数据库,顾名思义,就是存放数据的仓库,数据库作为一个成长了60多年的治理体系,有着宏大年夜的应用范畴和复杂的功能……好了我编不下去了。
在本文中,数据库的重要感化是AI式的excel表格(●—●)。在爬虫进行的过程中,爬到一个数就存进去,爬到一个数就存进去,即使爬虫法度榜样运行中断,中断前爬到的数据都邑存放在数据库中。
大年夜多半数据库都能与python对接应用的,米酱知道的有mysql、sqlite、mongodb、redis。这里用的是mysql,mac上mysql的安装,治理数据库的软件Navicat应用赞助,其他体系本身找吧,安装应用过程中有啥问题,请不要来找我(逃
根据膳绫擎的代码,在navicat中创建数据库、表和域以及域的格局。在Python法度榜样中添加代码。
- conn =pymysql.connect(host='办事器IP(默认是127.0.0.1)',user='办事器名(默认是root)',password='办事器暗码',charset="utf8",use_unicode = False) #连接办事器
- cur = conn.cursor()
- sql = "insert into xue.xueresponse(comment_id,user_name,created_at,text,likenum,source) values(%s,%s,%s,%s,%s,%s)" #格局是:数据名.表名(域名)
推荐阅读
国内最火的 HTML、CSS、JavaScript 开源项目 Top 榜,你知多少?
操作体系:跨平台 对于开辟者而言,想要着手前端开辟,HTML、CSS 和 JavaScript 是三项必备的基本技能。而若何事半功倍地控制好这些常识?经由过程懂得当下火热的开源项目不乏为最佳进修姿>>>详细阅读
本文标题:如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
地址:http://www.17bianji.com/lsqh/37761.html
1/2 1