作家
登录

Google爬虫如何抓取JavaScript的?

作者: 来源: 2017-04-06 14:17:12 阅读 我要评论

我们测试下拉菜单的链接。汗青上的搜素引擎一向不克不及跟踪这类型的链接。我们想肯定>Google Work 页面的说话选择下拉菜单。

我们测试了谷歌爬虫是若何抓取 JavaScript,下面就是我们大年夜中进修到的常识。

认为 Google 不克不及处理 JavaScript ?再想想吧。Audette Audette 分享了一系列测试结不雅,他和他同事测试了什么类型的 JavaScript 功能会被 Google 抓取和收录。

Google爬虫若何抓取JavaScript的?

长话短说

下次,你的客户想要为他们的网站完成 JavaScript 重定向移动,你可能不须要答复,或答复:“请不要”。因为这似乎有一个让渡排名旌旗灯号的关系。支撑这一结论是引用了 Google 指南:

2. DOM 中的 搜刮引擎优化 旌旗灯号(页面标题、meta 描述、canonical 标签、meta robots 标签等)都被存眷到。动态插入 DOM 的内容都也能被抓取和收录。此外,在某些案例中,DOM 甚至可能比 HTML 源码语句更优先。固然这须要做更多的工作,但这是我们好几个测试中的一个。

1. 我们进行了一系列测试,已证实 Google 能以多种方法履行和收录 JavaScript。我们也确认 Google 能衬着全部页面并攫取 DOM,由此能收录动态生成的内容。

引言:Google 履行 JavaScript & 攫取 DOM

早在 2008 年, Google 就 成功抓取 JavaScript,但很可能局限于某种方法。

而在今天,可以明白的是,Google 不仅能制订出他们抓取和收录的 JavaScript 类型,并且在衬着全部 web 页面上取得了明显进步(特别在比来的 12 到 18 个月)。

在 Merkle,我们的 搜刮引擎优化 技巧团队想更好地舆解谷歌爬虫能抓取和收录什么类型的 JavaSscript 事宜。经由研究,我们发明令工资目标结不雅,并已证实 Google 不仅能履行各类 JavaScript 事宜,并且能收录动态生成的内容。怎么样做到的?Google 能攫取 DOM。

DOM 是什么?

很多搞 搜刮引擎优化 的都不睬解什么是 Document Object Model(DOM)。

当浏览器请求页面时会产生什么,而 DOM 又是若何介入进来的。

当浏览器请求页面时会产生什么,而 DOM 又是若何介入进来的。

当用于 web 浏览器,DOM 本质上是一个应用法度榜样的接口,或 API,用于标记和构造数据(如 HTML 和 XML)。该接口许可 web 浏览器将它们进行组合而构成文档。

结不雅:链接被完全地抓取和跟踪。

DOM 也定义了若何对构造进行获取和操作。固然 DOM 是与说话无关的 API (不是绑缚在特定编程说话或库),但它广泛应用于 web 应用法度榜样的 JavaScript 和 动态内容。

DOM 代表了接口,或“桥梁”,将 web 页面与编程说话连接起来。解析 HTML 和履行 JavaScript 的结不雅就是 DOM。web 页面的内容不(不仅)是源码,是 DOM。这使它变得异常重要。

JavaScript 是若何经由过程 DOM 接口工作的。

JavaScript 是若何经由过程 DOM 接口工作的。

我们高兴地发明 Google 可以或许攫取 DOM,并能解析旌旗灯号和动态插入的内容,例如 title 标签、页面文本、head 标签和 meta 注解(如:rel = canonical)。可浏览个中的完全细节。

这一系列测试和结不雅

因为想知道什么样的 JavaScript 功能会被抓取和收录,我们零丁对 谷歌爬虫 创建一系列测试。经由过程创建控件,确保 URL 晃荡能被自力懂得。下面,让我们具体划搀扶一些有趣的测试结不雅。它们被分为 5 类:

  1. JavaScript 重定向
  2. JavaScript 链接
  3. 动态插入内容
  4. 动态插入 Meta 数据 和页面元素
  5. 一个带有 rel = “nofollow” 的重要例子 

一个用来测试谷歌爬虫懂得 JavaScript 才能的页面。

例子:一个用来测试谷歌爬虫懂得 JavaScript 才能的页面。

2. JavaScript 链接

1. JavaScript 重定向

我们起首测试了常见的 JavaScript 重定向,用不合方法表示的 URL 会有什么样结不雅呢?我们选择了 window.location 对象进行两个测试:Test A 以绝对路径 URL 调用 window.location,而 Test B 应用相对路径。

结不雅:该重定向很快被 Google 跟踪。大年夜收录来看,它们被解释为 301 - 最终状况的 URL 代替了 Google 收录里的重定向 URL。

在随后的测试中,我们在一个威望网页上,应用完全雷同的内容,完成一次应用 JavaScript 重定向到同一个站点的新页面。而原始 URL 是排在 Google 热点萌芽的首页。

结不雅:不雅然,重定向被 Google 跟踪,而原始页面并没有被收录。而新 URL 被收录了,并急速排在雷同萌芽页面内的雷同地位。这让我们很惊喜,以排名的角度上看,视乎注解了JavaScript 重定向行动(有时)很像永远性的 301 重定向。


  推荐阅读

  5个开源Python库,让机器学习更简单

Kubelib编写批量功课只是处理数据堆的一部分,你还须要将所有功课串起来生成类似工作流和管道的器械。 Python 是一款强大年夜的对象说话,被广泛应用在大年夜数据和机械进修之中。以下推荐>>>详细阅读


本文标题:Google爬虫如何抓取JavaScript的?

地址:http://www.17bianji.com/lsqh/34607.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)