作家
登录

基于Python的Scrapy爬虫入门:代码详解

作者: 来源: 2017-11-30 09:07:01 阅读 我要评论

  •  'response_received_count': 2, 
  •  
  •  'scheduler/dequeued': 1, 
  •  
  •  'scheduler/dequeued/memory': 1, 
  •  
  •  'scheduler/enqueued': 1, 
  •  
  •  'scheduler/enqueued/memory': 1, 
  •  
  •  'start_time': datetime.datetime(2017, 11, 27, 7, 20, 23, 867300)} 
  • 重要存眷ERROR及WARNING两项,这里的 Warning 其实是不相符前提而触发的 DropItem 异常。

    五、保存结不雅

    大年夜多半情况下都须要对抓取的结不雅进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只须要敕令行加参数 -o {filename} 即可:

    1. scrapy crawl photo -o output.json # 输出为JSON文件 
    2.  
    3. scrapy crawl photo -o output.csv  # 输出为CSV文件

    留意:输出至文件中的项目是未经由 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都邑输出,是以也可以在 parse 中过滤只返回须要的项目

    如不雅须要保存至数据库,则须要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:

    1. ... 
    2.  
    3.     def process_item(self, item, spider): 
    4.  
    5.         ... 
    6.  
    7.         else
    8.  
    9.             print(item['url']) 
    10.  
    11.             self.myblog.add_post(item) # myblog 是一个数据库类,用于处理数据库操作 
    12.  
    13.         return item 
    14.  
    15. ... 

    为了在插入数据库操作中清除反复的内容,可以应用 item[‘post_id’] 进行断定,如不雅存在则跳过。

    【编辑推荐】

    1. 关于Python数据分析的入门指南
    2. 机械人研发烧门说话:不逝世Java、不朽C/C ++、新贵Python
    3. 大年夜Zero到Hero ,一文┞菲握Python
    4. 为什么做AI的都选Python?
    5. Python oracle数据库操作时,中文萌芽报错
    【义务编辑:庞桂玉 TEL:(010)68476606】

      推荐阅读

      摆脱尴尬,我国IPv6加速跑需要“魔鬼步伐”

    CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 人工智能、大年夜数据、云计算、物联网,其实都是>>>详细阅读


    本文标题:基于Python的Scrapy爬虫入门:代码详解

    地址:http://www.17bianji.com/lsqh/39298.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)