作家
登录

如何分析博客中最流行的编程语言

作者: 来源: 2017-11-14 14:13:00 阅读 我要评论

        super(TrafficSpider, self).__init__() 
  •         self.blogs_data = blogs_data 
  • blogs_data 应当是以下格局的词典列表:{"rank": 70, "url": "www.stat.washington.edu", "query": "Python"}。

    请求构建函数如下:

    1. def start_requests(self): 
    2.     url_template = urllib.parse.urlunparse( 
    3.         ['http', self.allowed_domains[0], '/www/{path}''''''']) 
    4.     for blog in self.blogs_data: 
    5.         url = url_template.format(path=blog['url']) 
    6.         request = SplashRequest(url, endpoint='render.html'
    7.                                 args={'wait': 0.5}, meta={'blog': blog}) 
    8.         yield request 

    它相当的简单,我们只是把字符串 /www/web-site-url/ 添加到 'www.statshow.com' URL 中。

    如今让我们看一下语法解析器是什么样子的:

    起首,让我们对所有的说话进行直接的比较,看看哪一种说话在前 100 个博客中有最多的浏览量。

    与博宽解析法度榜样类似,我们只是经由过程 StatShow 示例的返回页面,然后找到包含每日页面浏览量和每日拜访者的元素。这两个参数都肯定了网站的受迎接程度,对于我们的分析只须要应用页面浏览量即可 。

    第二部分:分析

    这部分是分析我们汇集到的所稀有据。然后,我们用名为 Bokeh 的库来可视化预备好的数据集。我在这琅绫腔有给出运行器和可视化的代码,然则它可以在 GitHub repo 中找到,包含你在这篇文┞仿中看到的和其他一切器械。

    • 最初的结不雅集含有少许偏离过大年夜的数据,(如 google.com、linkedin.com、Oracle.com 等)。它们显然不该该被推敲。即使个中有些有博客,它们也不是针对特定说话的。这就是为什愦我们基于这个 StackOverflow 答复 中所建议的办法来过滤异常值。

    【编辑推荐】

    1. 哈释传授公开R说话源码,教你用R制造gif动图
    2. 态牛-Tech Neo 8月刊:说话的选择
    3. 控制数据科学应钙揭捉?习哪些说话?
    4. R说话可视化之UpSetR包
    5. 10个最佳的大年夜数据处理编程说话
    【义务编辑:未丽燕 TEL:(010)68476606】

    说话风行度比较

    这是能进行这个义务的函数:

    1. def get_languages_popularity(data): 
    2.     query_sorted_data = sorted(data, key=itemgetter('query')) 
    3.     result = {'languages': [], 'views': []} 
    4.     popularity = [] 
    5.     for k, group in groupby(query_sorted_data, key=itemgetter('query')): 
    6.         group = list(group
    7.         daily_page_views = map(lambda r: int(r['daily_page_views']), group
    8.         total_page_views = sum(daily_page_views) 

        推荐阅读

        90%程序员面试都用得上的索引优化

      Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 多关于索引,分为以下几点来讲解(技巧文): 索引的概述(什么是索引,索引的优缺点) 索引的根本应用>>>详细阅读


      本文标题:如何分析博客中最流行的编程语言

      地址:http://www.17bianji.com/lsqh/38842.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)