作家
登录

Python爬虫神器PyQuery的使用方法

作者: 来源: 2017-05-31 09:47:11 阅读 我要评论

  1. from pyquery import PyQuery as pq 
  2.  
  3. doc = pq('http://www.baidu.com' 

pq 参数可以直接传入 HTML 代码,doc 如今就相当于 jQuery 琅绫擎的 $ 符号了。

这里就像直接请求了一个网页一样,类似用 urllib2 来直接请求这个链接,获得 HTML 代码。

安装

(4)传文件

  1. from pyquery import PyQuery as pq 
  2.  
  3. doc = pq(filename='hello.html' 

可以直接传某个路径的文件名。

快速体验

在这里我们留意到了一点,PyQuery 初始化之后,返回类型是 PyQuery,应用了选择器筛选一次之后,返回结不雅的类型依然照样 PyQuery,这的确和 jQuery 千篇一律,不克不及更赞!然而想一下 BeautifulSoup 和 XPath 返回的是什么?列表!一种不克不及再进行二次筛选(在这里指依然应用 BeautifulSoup 或者 XPath 语法)的对象!

如今我们以本地文件为例,传入一个名字为 hello.html 的文件,文件内容为

  1. <div> 
  2.  
  3.     <ul> 
  4.  
  5.          <li class="item-0">first item</li> 
  6.  
  7.          <li class="item-1"><a href=http://developer.51cto.com/art/201705/"link2.html">second item</a></li> 
  8.  
  9.          <li class="item-0 active"><a href=http://developer.51cto.com/art/201705/"link3.html"><span class="bold">third item</span></a></li> 
  10.  
  11.          <li class="item-1 active"><a href=http://developer.51cto.com/art/201705/"link4.html">fourth item</a></li> 
  12.  
  13.          <li class="item-0"><a href=http://developer.51cto.com/art/201705/"link5.html">fifth item</a></li> 
  14.  
  15.      </ul> 
  16.  
  17. </div>  

编写如下法度榜样

  1. from pyquery import PyQuery as pq 
  2.  
  3. doc = pq(filename='hello.html'
  4.  
  5. print doc.html() 
  6.  
  7. print type(doc) 
  8.  
  9. li = doc('li'
  10.  
  11. print type(li) 
  12.  
  13. print li.text()  

运行结不雅

看,回想一下 jQuery 的语法,是不是运行结不雅都是一样的呢?

属性操作

你可以完全按照 jQuery 的语法来进行 PyQuery 的操作。

  1. from pyquery import PyQuery 

      推荐阅读

      OTT IPTV商机广阔 运营商如何进一步发掘CDN机会窗口

    在此前4月份的亚太CDN峰会上,中国联通收集技巧研究院、高等工程师乔治曾做过一个猜测:全球流量复合增长率占>>>详细阅读


    本文标题:Python爬虫神器PyQuery的使用方法

    地址:http://www.17bianji.com/lsqh/35490.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)