Python编写知乎爬虫实践

DEFAULT 0 COMMENT '收藏数',

`follower_count` int(10) unsigned DEFAULT 0 COMMENT '被存眷数',

`followed_count` int(10) unsigned DEFAULT 0 COMMENT '存眷数',

`follow_live_count` int(10) unsigned DEFAULT 0 COMMENT '存眷直播数',

`follow_topic_count` int(10) unsigned DEFAULT 0 COMMENT '存眷话题数',

`follow_column_count` int(10) unsigned DEFAULT 0 COMMENT '存眷专栏数',

`follow_question_count` int(10) unsigned DEFAULT 0 COMMENT '存眷问题数',

`follow_collection_count` int(10) unsigned DEFAULT 0 COMMENT '存眷收藏夹数',

`gmt_create` datetime NOT NULL COMMENT '创建时光',

`gmt_modify` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后一次编辑',

PRIMARY KEY (`uid`)

) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='用户根本信息表';

网页下载后经由过程XPath进行解析，提取用户各个维度的数据，最后保存到数据库中。

反爬虫策略应对-Headers

一般网站会大年夜几个维度来反爬虫：用户请求的Headers，用户行动，网站和数据加载的方法。大年夜用户请求的Headers反爬虫是最常见的策略，很多网站都邑对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测(一些资本网站的防盗链就是检测Referer)。

如不雅碰到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

建表

cookies = { 
    "d_c0": "AECA7v-aPwqPTiIbemmIQ8abhJy7bdD2VgE=|1468847182", 
    "login": "NzM5ZDc2M2JkYzYwNDZlOGJlYWQ1YmI4OTg5NDhmMTY=|1480901173|9c296f424b32f241d1471203244eaf30729420f0", 
    "n_c": "1", 
    "q_c1": "395b12e529e541cbb400e9718395e346|1479808003000|1468847182000", 
    "l_cap_id": 	
			 4/6   首页 上一页 2 3 4 5 6 下一页 尾页	
			

　　推荐阅读
　　Python源码理解: +=和 xx = xx + xx的区别
            
            前菜在我们应用Python的过程, 很多时刻会用到 + 运算, 例如:先来看看字节码:a = 1 + 2  print a  # 输出  3  不但在加法中应用, 在字符串的拼接也同样发挥这重要的感化, 例如:a = 'abc' +>>>详细阅读


本文标题：Python编写知乎爬虫实践
地址：http://www.17bianji.com/lsqh/35819.html
 1/2    1