基于Python的Scrapy爬虫入门：代码详解

'response_received_count': 2,

'scheduler/dequeued': 1,

'scheduler/dequeued/memory': 1,

'scheduler/enqueued': 1,

'scheduler/enqueued/memory': 1,

'start_time': datetime.datetime(2017, 11, 27, 7, 20, 23, 867300)}

重要存眷ERROR及WARNING两项，这里的 Warning 其实是不相符前提而触发的 DropItem 异常。

五、保存结不雅

大年夜多半情况下都须要对抓取的结不雅进行保存，默认情况下 item.py 中定义的属性可以保存到文件中，只须要敕令行加参数 -o {filename} 即可：

scrapy crawl photo -o output.json # 输出为JSON文件 
 
scrapy crawl photo -o output.csv  # 输出为CSV文件

留意：输出至文件中的项目是未经由 TuchongPipeline 筛选的项目，只要在 parse 函数中返回的 Item 都邑输出，是以也可以在 parse 中过滤只返回须要的项目

如不雅须要保存至数据库，则须要添加额外代码处理，比如可以在 pipelines.py 中 process_item 后添加:

... 
 
    def process_item(self, item, spider): 
 
        ... 
 
        else: 
 
            print(item['url']) 
 
            self.myblog.add_post(item) # myblog 是一个数据库类，用于处理数据库操作 
 
        return item 
 
...

为了在插入数据库操作中清除反复的内容，可以应用 item[‘post_id’] 进行断定，如不雅存在则跳过。

【编辑推荐】

关于Python数据分析的入门指南
机械人研发烧门说话：不逝世Java、不朽C/C ++、新贵Python
大年夜Zero到Hero ，一文┞菲握Python
为什么做AI的都选Python？
Python oracle数据库操作时，中文萌芽报错

【义务编辑：庞桂玉 TEL：（010）68476606】

10/10 首页上一页 8 9 10

　　推荐阅读

　　摆脱尴尬，我国IPv6加速跑需要“魔鬼步伐”

CTO练习营 | 12月3-5日，深圳，是时刻成为优良的技巧治理者了人工智能、大年夜数据、云计算、物联网，其实都是>>>详细阅读

本文标题：基于Python的Scrapy爬虫入门：代码详解

地址：http://www.17bianji.com/lsqh/39298.html

1/2 1