如何快速爬取B站全站视频信息

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践

B 站我想大年夜家都熟悉吧，其实 B 站的爬虫网上一搜一大年夜堆。不过纸上得来终觉浅，绝知此事要躬行，我码故我在。最终爬取到数据总量为 760万条。

预备工作

起首打开 B 站，随便在首页找一个视频点击进去。惯例操作，打开开辟者对象。此次是目标是经由过程爬取 B 站供给的 api 来获取视频信息，不去解析网页，解析网页的速度太慢了并且轻易被封 ip。

勾选 JS 选项，F5 刷新

着手写码

好了，到这里代码就可以码起来了，经由过程 request 赓续的迭代获取数据，为了让爬虫更高效，可以应用多线程。

核心代码

result = [] 
req = requests.get(url, headers=headers, timeout=6).json() 
time.sleep(0.6)     # 延迟，避免太快 ip 被封 
try: 
    data = req['data'] 
    video = Video( 
        data['aid'],        # 视频编号 
        data['view'],       # 播放量 
        data['danmaku'],    # 弹幕数 
        data['reply'],      # 评论数 
        data['favorite'],   # 收藏数 
        data['coin'],       # 硬币数 
        data['share']       # 分享数 
    ) 
    with lock: 
        result.append(video) 
except: 
    pass

迭代爬取

复制下来，去除没须要的内容，获得 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ，用浏览器打开，会获得如下的 json 数据

urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i)  
    for i in range(10000)] 
 with futures.ThreadPoolExecutor(32) as executor:    # 多线程 
     executor.map(run, urls)

不要一次性爬取全部链接，我是应用两个过程，如许就是多过程+多线程了。一个过程一次大年夜概爬取 50w 条数据。100w 条数据的话大年夜概一个多小时吧。分多次爬取，分别将数据保存为不呵９依υ?件名，最后再汇总。

1/2 1 2 下一页尾页

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践 UEFI（同一可扩大固件接口）代替传统的BIOS已经有相当长一段时光了，这两者比较直不雅的区分方法就是看界>>>详细阅读

本文标题：如何快速爬取B站全站视频信息

地址：http://www.17bianji.com/lsqh/38984.html

1/2 1