重要存眷ERROR及WARNING两项,这里的 Warning 其实是不相符前提而触发的 DropItem 异常。
五、保存结不雅
大年夜多半情况下都须要对抓取的结不雅进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只须要敕令行加参数 -o {filename} 即可:
- scrapy crawl photo -o output.json # 输出为JSON文件
- scrapy crawl photo -o output.csv # 输出为CSV文件
留意:输出至文件中的项目是未经由 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都邑输出,是以也可以在 parse 中过滤只返回须要的项目
如不雅须要保存至数据库,则须要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:
- ...
- def process_item(self, item, spider):
- ...
- else:
- print(item['url'])
- self.myblog.add_post(item) # myblog 是一个数据库类,用于处理数据库操作
- return item
- ...
为了在插入数据库操作中清除反复的内容,可以应用 item[‘post_id’] 进行断定,如不雅存在则跳过。
【编辑推荐】
- 关于Python数据分析的入门指南
- 机械人研发烧门说话:不逝世Java、不朽C/C ++、新贵Python
- 大年夜Zero到Hero ,一文┞菲握Python
- 为什么做AI的都选Python?
- Python oracle数据库操作时,中文萌芽报错
推荐阅读
CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 人工智能、大年夜数据、云计算、物联网,其实都是>>>详细阅读
地址:http://www.17bianji.com/lsqh/39298.html
1/2 1