作家
登录

python爬虫——写出最简单的网页爬虫

作者: 来源: 2017-08-09 17:04:39 阅读 我要评论

比来对python爬虫有了强烈地兴趣,在此分享本身的进修路径,迎接大年夜家提出建议。我们互订交换,合营进步。

1.开辟对象

笔者应用的对象是sublime text3,它的短小精干(可能汉子们都不爱好这个词)使我十分入神。推荐大年夜家应用,当然如不雅你的电脑设备不错,pycharm可能加倍合适你。

2.爬虫介绍

爬虫顾名思义,就是像虫子一样,爬在Internet这张大年夜网上。如斯,我们便可以获取本身想要的器械。

既然要爬在Internet上,那么我们就须要懂得URL,法号“同一资本定位器”,奶名“链接”。其构造重要由三部分构成:

(1)协定:如我们在网址中常见的HTTP协定。

(2)域名或者IP地址:域名,如:www.baidu.com,IP地址,即将域名解析后对应的IP。

(3)路径:即目次或者文件等。

(1)urllib简介

Module Introduce urllib.error Exception classes raised by urllib.request. urllib.parse Parse URLs into or assemble them from components. urllib.request Extensible library for opening URLs. urllib.response Response classes used by urllib. urllib.robotparser Load a robots.txt file and answer questions about fetchability of other URLs.

(2)开辟最简单的爬虫

3.urllib开辟最简单的爬虫

百度首页简洁大年夜方,很合适我们爬虫。

爬虫代码如下:

  1. from urllib import request 
  2.  
  3. def visit_baidu(): 
  4.     URL = "http://www.baidu.com" 
  5.     # open the URL 
  6.     req = request.urlopen(URL) 
  7.     # read the URL  
  8.     html = req.read() 
  9.     # decode the URL to utf-8 
  10.     html = html.decode("utf_8"
  11.     print(html) 
  12.  
  13. if __name__ == '__main__'
  14.     visit_baidu()  

结不雅如下图:

[sublime搭建python开辟情况][http://www.cnblogs.com/codefish/p/4806849.html]

我们可以经由过程在百度首页空白处右击,查看审查元素来和我们的运行结不雅比较。

当然,request也可以生成一个request对象,这个对象可以用urlopen办法打开。

代码如下:

  1. from urllib import request 
  2.  
  3. def vists_baidu(): 
  4.     # create a request obkect 
  5.     req = request.Request('http://www.baidu.com'
  6.     # open the request object 
  7.     response = request.urlopen(req) 
  8.     # read the response  
  9.     html = response.read() 
  10.     html = html.decode('utf-8'
  11.     print(html) 
  12.  
  13. if __name__ == '__main__'
  14.     vists_baidu()  

  15.   推荐阅读

      VAIO笔记本重返中国市场 携手京东限量发售

    【51CTO.com原创稿件】2014年2月,索尼宣布出售PC营业,JIP基金接办。新VAIO公司JIP持股95%,索尼保存5%的股份,之前引导VAIO事业部的赤羽良介将持续引导VAIO团队并入JIP,团队范围缩减至>>>详细阅读


    本文标题:python爬虫——写出最简单的网页爬虫

    地址:http://www.17bianji.com/lsqh/36627.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)