作家
登录

如何分析博客中最流行的编程语言

作者: 来源: 2017-11-14 14:13:00 阅读 我要评论

'render.html'
  •                                 args={'wait': 0.5}) 
  • 在这里你可以看到相当复杂的 params_dict 字典,它控制所有我们之前找到的 Google CSE URL 的参数。然后我们预备好 url_template 里的一切,除了已经填好的萌芽和页码。我们对每种编程说话请求 10 页,每一页包含 10 个链接,所所以每种说话有 100 个不合的博客用来分析。

    在 42-43 行,我应用一个特别的类 SplashRequest 来代替 Scrapy 自带的 Request 类。它封装了 Splash 库内部的重定向逻辑,所以我们无需为此担心。十分整洁。

    最后,这是解析法度榜样:

    1. def parse(self, response): 
    2.     urls = response.css('div.gs-title.gsc-table-cell-thumbnail') \ 
    3.         .xpath('./a/@href').extract() 
    4.     gsc_fragment = urllib.parse.urlparse(response.url).fragment 
    5.     fragment_dict = urllib.parse.parse_qs(gsc_fragment) 
    6.     page_num = int(fragment_dict['gsc.page'][0]) 
    7.     query = fragment_dict['gsc.q'][0] 
    8.     page_size = len(urls) 
    9.     for i, url in enumerate(urls): 
    10.         parsed_url = urllib.parse.urlparse(url) 
    11.         rank = (page_num - 1) * page_size + i 
    12.         yield { 
    13.             'rank': rank, 
    14.             'url': parsed_url.netloc, 
    15.             'query': query 
    16.         } 

    所有 Scraper 的核心和魂魄就是解析器逻辑。可以有多种办法来懂得响应页面的构造并构建 XPath 萌芽字符串。您可以应用 Scrapy shell 测验测验并随时调剂你的 XPath 萌芽,而不消运行爬虫。不过我更爱好可视化的办法。它须要再次用到谷歌 Chrome 开辟人员控制台。只需右键单击你想要用在你的爬虫里的元素,然后按下 Inspect。它将打开控制台,并定位到你指定地位的 HTML 源代码。在本例中,我们想要获得实际的搜刮结不雅链接。他们的源代码定位是如许的:

    若何分析博客中最风行的编程说话

    在查看这个元素的描述后我们看到所找的

    有一个 .gsc-table-cell-thumbnail CSS 类,它是 .gs-title的子元素,所以我们把它放到响应对象的 css 办法(46 行)。然后,我们只须要获得博客文┞仿的 URL。它很轻易经由过程'./a/@href' XPath 字符串来获得,它能大年夜我们的直接子元素的 href 属性找到。(LCTT 译注:此处图文对不上)

    寻找流量数据

    下一?义务是估测每个博客天天获得的页面浏览量。获得如许的数据有各类方法,有免费的,也有付费的。在快速搜刮之后,我决定基于简单且免费的原因应用网站 www.statshow.com 来做。爬虫将抓取这个网站,我们在前一步获得的博客的 URL 将作为这个网站的输入参数,获得它们的流量信息。爬虫的初始化是如许的:

    1. class TrafficSpider(scrapy.Spider): 
    2.     name = 'traffic' 
    3.     allowed_domains = ['www.statshow.com'
    4.     def __init__(self, blogs_data): 

    5.   推荐阅读

        90%程序员面试都用得上的索引优化

      Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 多关于索引,分为以下几点来讲解(技巧文): 索引的概述(什么是索引,索引的优缺点) 索引的根本应用>>>详细阅读


      本文标题:如何分析博客中最流行的编程语言

      地址:http://www.17bianji.com/lsqh/38842.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)