一只node爬虫的升级打怪之路

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践

我一向认为，爬虫是很多web开辟人员难以躲避的点。我们也应当或多或少的去接触这方面，因为可以大年夜爬虫中进修到web开辟中应当控制的一些根本常识。并且，它还很有趣。

若何能爬取网站的数据?

我是一个知乎稍微重度用户，之前写了一只爬虫帮我爬取并分析它的数据，我感到这个过程照样挺有意思，因为这是一个赓续给本身创造问题又去解决问题的过程。个中碰到了一些点，今天总结一下跟大年夜家分享分享。

它都爬了什么?

先简单介绍下我的爬虫。它可以或许准时抓取一个问题的存眷量、浏览量、答复数，以便于我将这些数据绘成图表展示它的热点趋势。为了不让我错过一些热点事宜，它还会准时去获取我存眷话题下的热点问答，并推送到我的邮箱。

作为一个前端开辟人员，我必须为这个爬虫体系做一个界面，能让我上岸知乎帐号，添加存眷的标题、话题，看到可视化的数据。所以这只爬虫还有上岸知乎、搜刮标题标功能。

然后来看下界面。

一只node爬虫的进级打怪之路

下面正儿八经讲它的开辟过程。

技巧选型

Python得益于其简单快捷的语法、以及丰富的爬虫库，一向是爬虫开辟人员的首选。可惜我不熟。当然最重要的是，作为一名前端开辟人员，node能知足爬虫需求的话，天然更是首选。并且跟着node的成长，也有很多好用的爬虫库，甚至有 puppeteer 如许直接能模仿Chrome拜访网页的对象的推出，node在爬虫方面应当是妥妥能知足我所有的爬虫需求了。

于是我选择大年夜零搭建一个基于koa2的办事端。为什么不直接选择egg，express，thinkjs这些加倍周全的框架呢?因为我爱折腾嘛。并且这也是一个进修的过程。如不雅页堪不懂得node，又对搭建node办事端有兴趣，可以看我之前的一篇文┞仿-大年夜零搭建Koa2 Server。

爬虫的基本搞定后，就可以真正去获取想要的数据了。我的需求是想知道某个知乎问题的热点趋势。先用浏览器去看看一个问题页面下都有哪些数据，可以被我爬取分析。举个例子，比如这个问题：有哪些令人拍桌惊叹的推理桥段。

爬虫方面我选择了 request + cheerio 。固然知乎有很多处所用到了react，但得益于它绝大年夜部分页面照样办事端衬着，所以只要能请求网页与接口(request)，解析页面(cherrio)即可知足我的爬虫需求。

其他不一一举例了，我列个技巧栈

办事端

koajs 做node server框架;
request + cheerio 做爬虫办事;
mongodb 做数据存储;
node-schedule 做义务调剂;
nodemailer 做邮件推送。

客户端

vuejs 前端框架;
museui Material Design UI库;
chart.js 图表库。

技巧选型妥当后，我们就要关怀营业了。重要义务就是真正的爬取到页面。

在客户端获取验证码时，知乎办事端还会往客户端设置一个新cookie，提交上岸请求时，必须把验证码与此cookie一同提交，来验证此次提交的验证码确切是当时赐与用户的验证码。

知乎并没有对外开放接口能让用户获取数据，所以想获取数据，就得本身去爬取网页信息。我们知道即使是网页，它本质上也是个GET请求的接口，我们只要在办事端去请求对应网页的地址(客户端请求会跨域)，再把html构造解析下，获取想要的数据即可。

模仿上岸

大年夜家都邑用Chrome等现代浏览器看请求信息，我们在知乎的登录页进行上岸，然后查看捕获接口信息就能知道，上岸无非就是向一个上岸api发送账户、暗码等信息，如不雅成功。办事端会向客户端设置一个cookie，这个cookie等于上岸凭证。

所以我们的思路也是如斯，经由过程爬虫办事端去请求接口，带上我们的┞肥号暗码信息，成功后再将返回的cookie存到我们的体系数据库，今后再去爬取其他页面时，带上此cookie即可。

当然，等我们真正测验测验时，会受到更多挫折，因为会碰到token、验证码等问题。不过，因为我们有客户端了，可以将验证码的辨认交给真正的人，而不是办事端去解析图片字符，这降低了我们实现上岸的难度。

一波三折的是，即使你把精确验证码提交了，照样会提示验证码缺点。如不雅我们本身做过验证码提交的体系就可以或许敏捷的定位原因。如不雅没做过，我们再次查看上岸时涉及的请求与锾螃，我们也能猜到：

说话描述有些绕，我以图的情势来表达一个上岸请求的完全流程。

一只node爬虫的进级打怪之路

注：我编写爬虫时，知乎还部分采取图片字符验证码，现已全部改为“点击倒立文字”的情势。如许会加大年夜提交精确验证码的难度，但也并非无计可施。获取图片后，由人工辨认并点击倒立文字，将点击的坐标提交到上岸接口即可。当然有兴趣有才能的同窗也可以本身编写算法辨认验证码。

那为什愦我要搞一个上岸呢?因为非上岸帐号获守信息，知乎只会展示有限的数据，并且也无法得知本身知乎帐户存眷的话题、问题等信息。并且若是想本身的体系也给其他同伙应用，也必须搞一个帐户体系。

爬取数据

1/2 1 2 下一页尾页

　　推荐阅读

　　用好Windows的文件资源管理器，有哪些实用技巧？

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践这一篇面向Windows新手，旨在帮他们用好Windows自带的文件资本治理器。文件资本治理器可能是Windows上最高>>>详细阅读

本文标题：一只node爬虫的升级打怪之路

地址：http://www.17bianji.com/lsqh/38894.html

1/2 1