如何分析博客中最流行的编程语言

super(TrafficSpider, self).__init__()

self.blogs_data = blogs_data

blogs_data 应当是以下格局的词典列表：{"rank": 70, "url": "www.stat.washington.edu"， "query": "Python"}。

请求构建函数如下：

def start_requests(self): 
    url_template = urllib.parse.urlunparse( 
        ['http', self.allowed_domains[0], '/www/{path}', '', '', '']) 
    for blog in self.blogs_data: 
        url = url_template.format(path=blog['url']) 
        request = SplashRequest(url, endpoint='render.html', 
                                args={'wait': 0.5}, meta={'blog': blog}) 
        yield request

它相当的简单，我们只是把字符串 /www/web-site-url/ 添加到 'www.statshow.com' URL 中。

如今让我们看一下语法解析器是什么样子的：

起首，让我们对所有的说话进行直接的比较，看看哪一种说话在前 100 个博客中有最多的浏览量。

与博宽解析法度榜样类似，我们只是经由过程 StatShow 示例的返回页面，然后找到包含每日页面浏览量和每日拜访者的元素。这两个参数都肯定了网站的受迎接程度，对于我们的分析只须要应用页面浏览量即可。

第二部分：分析

这部分是分析我们汇集到的所稀有据。然后，我们用名为 Bokeh 的库来可视化预备好的数据集。我在这琅绫腔有给出运行器和可视化的代码，然则它可以在 GitHub repo 中找到，包含你在这篇文┞仿中看到的和其他一切器械。

最初的结不雅集含有少许偏离过大年夜的数据，(如 google.com、linkedin.com、Oracle.com 等)。它们显然不该该被推敲。即使个中有些有博客，它们也不是针对特定说话的。这就是为什愦我们基于这个 StackOverflow 答复中所建议的办法来过滤异常值。

【编辑推荐】

哈释传授公开R说话源码，教你用R制造gif动图
态牛-Tech Neo 8月刊：说话的选择
控制数据科学应钙揭捉?习哪些说话？
R说话可视化之UpSetR包
10个最佳的大年夜数据处理编程说话

【义务编辑：未丽燕 TEL：（010）68476606】

说话风行度比较

这是能进行这个义务的函数：

def get_languages_popularity(data): 
    query_sorted_data = sorted(data, key=itemgetter('query')) 
    result = {'languages': [], 'views': []} 
    popularity = [] 
    for k, group in groupby(query_sorted_data, key=itemgetter('query')): 
        group = list(group) 
        daily_page_views = map(lambda r: int(r['daily_page_views']), group) 
        total_page_views = sum(daily_page_views) 	
			 4/6   首页 上一页 2 3 4 5 6 下一页 尾页	
			

　　推荐阅读
　　90%程序员面试都用得上的索引优化
            Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践
            多关于索引，分为以下几点来讲解（技巧文）：    索引的概述(什么是索引,索引的优缺点)    索引的根本应用>>>详细阅读


本文标题：如何分析博客中最流行的编程语言
地址：http://www.17bianji.com/lsqh/38842.html
 1/2    1