pending 存储等待处理的URL请求,result 存储下载成功的响应,调剂器负责要乞降响应的获取和添加流转。
举个栗子
设计好我们的爬虫框架后来试一下吧,这个例子我们来爬取豆瓣片子的标题。豆瓣片子中有很多分类,我们可以选择几个作为开端抓取的 URL。
- public class DoubanSpider extends Spider {
- public DoubanSpider(String name) {
- super(name);
- this.startUrls(
- "https://movie.douban.com/tag/爱情",
- "https://movie.douban.com/tag/喜剧",
- "https://movie.douban.com/tag/动画",
- "https://movie.douban.com/tag/动作",
- "https://movie.douban.com/tag/史诗",
- "https://movie.douban.com/tag/犯法");
- }
- @Override
- public void onStart(Config config) {
- this.addPipeline((Pipeline<List<String>>) (item, request) -> log.info("保存到文件: {}", item));
- }
- public Result parse(Response response) {
- Result<List<String>> result = new Result<>();
推荐阅读
年前最后一场技巧盛宴 | 1月27日与京东、日记易技巧大年夜咖畅聊智能化运维成长趋势!PC主机重要的散热方法分为风冷和水冷,然则信赖不少玩家据说过“油冷”,就是应用矿物油不导电的特点,将>>>详细阅读
本文标题:设计和实现一款轻量级的爬虫框架
地址:http://www.17bianji.com/lsqh/40337.html
1/2 1