作家
登录

Python编写知乎爬虫实践

作者: 来源: 2017-06-19 10:01:19 阅读 我要评论

DEFAULT 0 COMMENT '收藏数'
  •   `follower_count` int(10) unsigned DEFAULT 0 COMMENT '被存眷数'
  •   `followed_count` int(10) unsigned DEFAULT 0 COMMENT '存眷数'
  •   `follow_live_count` int(10) unsigned DEFAULT 0 COMMENT '存眷直播数'
  •   `follow_topic_count` int(10) unsigned DEFAULT 0 COMMENT '存眷话题数'
  •   `follow_column_count` int(10) unsigned DEFAULT 0 COMMENT '存眷专栏数'
  •   `follow_question_count` int(10) unsigned DEFAULT 0 COMMENT '存眷问题数'
  •   `follow_collection_count` int(10) unsigned DEFAULT 0 COMMENT '存眷收藏夹数'
  •   `gmt_create` datetime NOT NULL COMMENT '创建时光',    
  •   `gmt_modify` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后一次编辑',              
  •   PRIMARY KEY (`uid`) 
  • ) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='用户根本信息表' 
  • 网页下载后经由过程XPath进行解析,提取用户各个维度的数据,最后保存到数据库中。

    反爬虫策略应对-Headers

    一般网站会大年夜几个维度来反爬虫:用户请求的Headers,用户行动,网站和数据加载的方法。大年夜用户请求的Headers反爬虫是最常见的策略,很多网站都邑对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资本网站的防盗链就是检测Referer)。

    如不雅碰到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。

    建表

    1. cookies = { 
    2.     "d_c0""AECA7v-aPwqPTiIbemmIQ8abhJy7bdD2VgE=|1468847182"
    3.     "login""NzM5ZDc2M2JkYzYwNDZlOGJlYWQ1YmI4OTg5NDhmMTY=|1480901173|9c296f424b32f241d1471203244eaf30729420f0"
    4.     "n_c""1"
    5.     "q_c1""395b12e529e541cbb400e9718395e346|1479808003000|1468847182000"
    6.     "l_cap_id"

        推荐阅读

        Python源码理解: +=和 xx = xx + xx的区别

      前菜在我们应用Python的过程, 很多时刻会用到 + 运算, 例如:先来看看字节码:a = 1 + 2 print a # 输出 3 不但在加法中应用, 在字符串的拼接也同样发挥这重要的感化, 例如:a = 'abc' +>>>详细阅读


      本文标题:Python编写知乎爬虫实践

      地址:http://www.17bianji.com/lsqh/35819.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)