作家
登录

基于Python的Scrapy爬虫入门:代码详解

作者: 来源: 2017-11-30 09:07:01 阅读 我要评论

  •       "cover_image_src""https://photo.tuchong.com/443122/g/11585752.webp"
  •  
  •       "is_favorite"false 
  •  
  •     } 
  •  
  •   ], 
  •  
  •   "siteList": {...}, 
  •  
  •   "following"false
  •  
  •   "coverUrl""https://photo.tuchong.com/443122/ft640/11585752.webp"
  •  
  •   "tag_name""美男"
  •  
  •   "tag_id""564"
  •  
  •   "url""https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3/"
  •  
  •   "more"true
  •  
  •   "result""SUCCESS" 
  •  
  • 根据图片浏览页面分析,根本上图片的地址都是这种格局: https://photo.tuchong.com/{site_id}/f/{img_id}.jpg ,很轻易经由过程膳绫擎的信息合成。

    二、创建项目

    1. 进入cmder敕令行对象,输入workon scrapy 进入之前建立的虚拟情况,此时敕令行提示符前会出现(Scrapy) 标识,标识处于该虚拟情况中,相干的路径都邑添加到PATH情况变量中便于开辟及应用。
    2. 输入 scrapy startproject tuchong 创建项目 tuchong
    3. 进入项目主目次,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不克不及与项目同名),爬取 tuchong.com 域名(这个须要修改,此处先输个大年夜概地址),的一个项目内可以包含多个爬虫

    经由以上步调,项目主动建立了一些文件及设置,目次构造如下:

    1. (PROJECT) 
    2.  
    3. │  scrapy.cfg 
    4.  
    5. │ 
    6.  
    7. └─tuchong 
    8.  
    9.     │  items.py 
    10.  
    11.     │  middlewares.py 
    12.  
    13.     │  pipelines.py 
    14.  
    15.     │  settings.py 
    16.  
    17.     │  __init__.py 
    18.  
    19.     │ 
    20.  
    21.     ├─spiders 
    22.  
    23.     │  │  photo.py 
    24.  
    25.     │  │  __init__.py 
    26.  
    27.     │  │ 
    28.  
    29.     │  └─__pycache__ 
    30.  
    31.     │          __init__.cpython-36.pyc 
    32.  

        推荐阅读

        摆脱尴尬,我国IPv6加速跑需要“魔鬼步伐”

      CTO练习营 | 12月3-5日,深圳,是时刻成为优良的技巧治理者了 人工智能、大年夜数据、云计算、物联网,其实都是>>>详细阅读


      本文标题:基于Python的Scrapy爬虫入门:代码详解

      地址:http://www.17bianji.com/lsqh/39298.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)