爬虫技术的门道，这篇文章总结的最全

基于plugin对象的检查

对网页内容的抓取与反制，注定是一个魔高一尺道高一丈的猫鼠游戏，你永远弗成能以某一种技巧彻底封逝世爬虫法度榜样的路，你能做的只是进步进击者的抓取成本，并对于未授权的抓取行动做到较为精确的获悉。

基于language的检查

基于webgl的检查

headless chrome可谓是headless browser中独树一帜的大年夜杀器，因为其自身就是一个chrome浏览器，是以支撑各类新的css衬着特点和js运行时语法。

基于浏览器hairline特点的检查

基于缺点img src属性生成的img对象的检查

基于以上的一些浏览器特点的断定，根本可以透楸市情上大年夜多半 headless browser 法度榜样。在这一点上，实际上是将网页抓取的门槛进步，请求编写爬虫法度榜样的开辟者不得不修改浏览器内核的C++代码，从新编译一个浏览器，并且，以上几点特点是对浏览器内核的修改其实并不小。

更进一步，我们还可以基于浏览器的 UserAgent 字段描述的浏览器品牌、版本型号信息，对js运行时、DOM和BOM的各个原生对象的属性及办法进行考验，不雅察其特点是否相符该版本的浏览器所应具备的特点。

这种方法被称为浏览器指纹检查技巧，依托于大年夜型web站对各型号浏览器api信息的收集。而作为编写爬虫法度榜样的进攻一方，则可以在 headless browser 运行时里预注入一些js逻辑，捏造浏览器的特点。

别的，在研究浏览器端应用js api进行 robots browser detect 时，我们发清楚明了一个有趣的小技能，你可以把一个预注入的js函数，假装成一个native function，来看看下面代码：

爬虫进攻方可能会预注入一些js办法，把原生的一些api外面包装一层proxy function作为hook，然后再用这个假的js api去覆盖原生api。如不雅防御者在对此做检查断定时是基于把函数toString之后对[native code]的检查，那么就会被绕过。所以须要更严格的检查，因为bind(null)捏造的办法，在toString之后是不带函数名的。

反爬虫的银弹

今朝的反抓取、机械人检查手段，最靠得住的┞氛样验证码技巧。但验证码并不料味着必定要强迫用户输入连续串字母数字，也有很多基于用户鼠标、触屏（移动端）等行动的行动验证技巧，这个中最为成熟的当属Google reCAPTCHA。

基于以上诸多对用户与爬虫的辨认区分技巧，网站的防御方最终要做的是封禁ip地址或是对这个ip的来访用户施以高强度的验证码策略。如许一来，进攻方不得不购买ip代劳池来抓取网站信息内容，不然单个ip地址很轻易被封导致无法抓取。抓取与反抓取的门槛被进步到了ip代劳池经济费用的层面。

除此之外，在爬虫抓取技巧范畴还有一个“白道”的手段，叫做robots协定。你可以在一个网站的根目次下拜访/robots.txt，比如让我们一路来看看github的机械人协定，Allow和Disallow声清楚明了对各个UA爬虫的抓取授权。

写在最后

这篇文┞仿中提到的对于验证码的攻防其实也是一个较为复杂的技巧可贵，在此留一个悬念，感兴趣可以加存眷等待后续文┞仿进行具体阐述。

别的，迎接对抓取方面感兴趣的同伙存眷我的一个开源项目webster, 项目以Node.js 结合Chrome headless模式实现了一个高可用性收集爬虫抓取框架，借以chrome对页面的衬着才能，可以抓取一个页面中所有的js及ajax衬着的异步内容；并结合redis实现了一个义务队列，使得爬虫法度榜样可以便利的进行横向、纵向的分布式扩大。

【编辑推荐】

前端必备技巧之Web图像优化
Node.js vs Ruby on Rails：哪个最合适Web开辟？
基于Python的Scrapy爬虫入门：代码详解
抢先一步，Rust 构建版支撑直接编译 WebAssembly
6 大年夜主流 Web 框架优缺点比较

【义务编辑：庞桂玉 TEL：（010）68476606】

2/2 首页上一页 1 2

　　推荐阅读

　　2017年Linux的五大痛点，你了解吗？

CTO练习营 | 12月3-5日，深圳，是时刻成为优良的技巧治理者了视频相干的模块诸如加快器、显卡、驱动和档链治理等问题、关于蓝牙的支撑、某些 WiFi 芯片或者打印机之类必备对象的问题，依然是一个相当相>>>详细阅读

本文标题：爬虫技术的门道，这篇文章总结的最全

地址：http://www.17bianji.com/lsqh/39460.html

1/2 1