如何科学地蹭热点：用python爬虫获取热门微博评论并进行情感分析

text = re.sub('<.*?>|答复<.*?>:|[\U00010000-\U0010ffff]|[\uD800-\uDBFF][\uDC00-\uDFFF]','',user['text'])

print(text)

likenum = user['like_counts']

print(likenum)

source = re.sub('[\U00010000-\U0010ffff]|[\uD800-\uDBFF][\uDC00-\uDFFF]','',user['source'])

print(source + '\r\n')

comment_num+=1

i+=1

time.sleep(3)

except:

i+1

pass

else:

break

3.python中数据库的攫取与写入

固然微博爬虫大年夜大年夜进步了数据获取量，但也因为是爬虫而轻易被新浪封禁。这里停止轮回的断定是收集状况不是200，但当微博发明是爬虫时，微博会返回一个网页，网页中什么本质内容督杈有，这时刻法度榜样就会报错，而之前爬到的数据，就啥也没有了。

然则如不雅爬一会，保存一次数据，这数据量要一大年夜起来…冷冷的文件在脸上胡乱地拍…我的心就像被…这时刻我们就须要用到数据库了。

数据库，顾名思义，就是存放数据的仓库，数据库作为一个成长了60多年的治理体系，有着宏大年夜的应用范畴和复杂的功能……好了我编不下去了。

在本文中，数据库的重要感化是AI式的excel表格(●—●)。在爬虫进行的过程中，爬到一个数就存进去，爬到一个数就存进去，即使爬虫法度榜样运行中断，中断前爬到的数据都邑存放在数据库中。

大年夜多半数据库都能与python对接应用的，米酱知道的有mysql、sqlite、mongodb、redis。这里用的是mysql，mac上mysql的安装，治理数据库的软件Navicat应用赞助，其他体系本身找吧，安装应用过程中有啥问题，请不要来找我(逃

根据膳绫擎的代码，在navicat中创建数据库、表和域以及域的格局。在Python法度榜样中添加代码。

conn =pymysql.connect(host='办事器IP(默认是127.0.0.1)',user='办事器名(默认是root)',password='办事器暗码',charset="utf8",use_unicode = False)    #连接办事器 
cur = conn.cursor() 
sql = "insert into xue.xueresponse(comment_id,user_name,created_at,text,likenum,source) values(%s,%s,%s,%s,%s,%s)" #格局是：数据名.表名(域名) 	
			 4/8   首页 上一页 2 3 4 5 6 7 下一页 尾页	
			

　　推荐阅读
　　国内最火的 HTML、CSS、JavaScript 开源项目 Top 榜，你知多少？
            操作体系：跨平台
            对于开辟者而言，想要着手前端开辟，HTML、CSS 和 JavaScript 是三项必备的基本技能。而若何事半功倍地控制好这些常识？经由过程懂得当下火热的开源项目不乏为最佳进修姿>>>详细阅读


本文标题：如何科学地蹭热点：用python爬虫获取热门微博评论并进行情感分析
地址：http://www.17bianji.com/lsqh/37761.html
 1/2    1