作家
登录

基于Python的Scrapy爬虫入门:代码详解

作者: 来源: 2017-11-30 09:07:01 阅读 我要评论

  •  
  •  
  •  
  •             item['tags'] = [] 
  •  
  •             # 将 tags 处理成 tag_name 数组 
  •  
  •             for tag in post.get('tags'''): 
  •  
  •                 item['tags'].append(tag['tag_name']) 
  •  
  •             items.append(item) 
  •  
  •         return items 
  • 当然如不雅不消管道直接在 parse 中处理也是一样的,只不过如许构造更清楚一些,并且还有功能更多的FilePipelines和ImagePipelines可供应用,process_item将在每一个条目抓取后触发,同时还有 open_spider 及 close_spider 函数可以重载,用于处理爬虫打开及封闭时的动作。

    留意:管道须要在项目中注册才能应用,在 settings.py 中添加:

    1. ITEM_PIPELINES = { 
    2.  
    3.     'tuchong.pipelines.TuchongPipeline': 300, # 管道名称: 运行优先级(数字小优先) 
    4.  

    四、运行

    返回 cmder 敕令行进入项目目次,输入敕令:

    1. scrapy crawl photo 

    终端会输出所有的爬行结不雅及调试信息,并在最后列出爬财气行的统计信息,例如:

    1. [scrapy.statscollectors] INFO: Dumping Scrapy stats: 
    2.  
    3. {'downloader/request_bytes': 491, 
    4.  
    5.  'downloader/request_count': 2, 
    6.  
    7.  'downloader/request_method_count/GET': 2, 
    8.  
    9.  'downloader/response_bytes': 10224, 
    10.  
    11.  'downloader/response_count': 2, 
    12.  
    13.  'downloader/response_status_count/200': 2, 
    14.  
    15.  'finish_reason''finished'
    16.  
    17.  'finish_time': datetime.datetime(2017, 11, 27, 7, 20, 24, 414201), 
    18.  
    19.  'item_dropped_count': 5, 
    20.  
    21.  'item_dropped_reasons_count/DropItem': 5, 
    22.  
    23.  'item_scraped_count': 15, 
    24.  
    25.  'log_count/DEBUG': 18, 
    26.  
    27.  'log_count/INFO': 8, 
    28.  
    29.  'log_count/WARNING': 5, 
    30.  

        推荐阅读

        摆脱尴尬,我国IPv6加速跑需要“魔鬼步伐”

      CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 人工智能、大年夜数据、云计算、物联网,其实都是>>>详细阅读


      本文标题:基于Python的Scrapy爬虫入门:代码详解

      地址:http://www.17bianji.com/lsqh/39298.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)