基于Python的Scrapy爬虫入门：代码详解

"cover_image_src": "https://photo.tuchong.com/443122/g/11585752.webp",

"is_favorite": false

}

"siteList": {...},

"following": false,

"coverUrl": "https://photo.tuchong.com/443122/ft640/11585752.webp",

"tag_name": "美男",

"tag_id": "564",

"url": "https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3/",

"more": true,

"result": "SUCCESS"

}

根据图片浏览页面分析，根本上图片的地址都是这种格局： https://photo.tuchong.com/{site_id}/f/{img_id}.jpg ，很轻易经由过程膳绫擎的信息合成。

二、创建项目

进入cmder敕令行对象，输入workon scrapy 进入之前建立的虚拟情况，此时敕令行提示符前会出现(Scrapy) 标识，标识处于该虚拟情况中，相干的路径都邑添加到PATH情况变量中便于开辟及应用。
输入 scrapy startproject tuchong 创建项目 tuchong
进入项目主目次，输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不克不及与项目同名)，爬取 tuchong.com 域名（这个须要修改，此处先输个大年夜概地址），的一个项目内可以包含多个爬虫

经由以上步调，项目主动建立了一些文件及设置，目次构造如下：

(PROJECT) 
 
│  scrapy.cfg 
 
│ 
 
└─tuchong 
 
    │  items.py 
 
    │  middlewares.py 
 
    │  pipelines.py 
 
    │  settings.py 
 
    │  __init__.py 
 
    │ 
 
    ├─spiders 
 
    │  │  photo.py 
 
    │  │  __init__.py 
 
    │  │ 
 
    │  └─__pycache__ 
 
    │          __init__.cpython-36.pyc 
 	
			 4/10   首页 上一页 2 3 4 5 6 7 下一页 尾页	
			

　　推荐阅读
　　摆脱尴尬，我国IPv6加速跑需要“魔鬼步伐”
            CTO练习营 | 12月3-5日，深圳，是时刻成为优良的技巧治理者了
            
                
                    
                
                人工智能、大年夜数据、云计算、物联网，其实都是>>>详细阅读


本文标题：基于Python的Scrapy爬虫入门：代码详解
地址：http://www.17bianji.com/lsqh/39298.html
 1/2    1