分享一个自己写的爬虫框架 - 代码天地

分享一个自己写的爬虫框架

企业开发 2018-05-13 14:14:51 阅读次数: 0

之前写过一年的垂直爬虫(抓博客什么的)，对于各种重复代码很厌倦，后来参考了据说是最优秀的爬虫框架scrapy，写了一个Java版的框架webmagic。
自己用着还是挺顺手的，底层封装了HttpClient、Jsoup、HtmlCleaner，支持多线程，也包括url去重、重试、编码判断什么的。希望能帮到把各位自己手写爬虫代码的同学。
代码不长，自认为模块化的也挺清晰，如果对爬虫感兴趣的可以看一看。
以下是使用webmagic抓取某个iteye博客的所有文章，并提取标题和正文的爬虫代码：

public class IteyeBlogProcessor implements PageProcessor {

    private Site site;

    @Override
    public void process(Page page) {
        page.addTargetRequests(page.getHtml().links().regex(".*yanghaoli\\.iteye\\.com/blog/\\d+").all());
        page.putField("title",page.getHtml().xpath("//title").toString());
        //自动抽取正文，用到了readability
        page.putField("content",page.getHtml().smartContent().toString());
    }

    @Override
    public Site getSite() {
        if (site == null) {
            site = Site.me().setDomain("yanghaoli.iteye.com").addStartUrl("http://yanghaoli.iteye.com/").
            .setSleepTime(100).setRetryTimes(3);
        }
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new IteyeBlogProcessor()).thread(5).pipeline(new FilePipeline()).run();
    }
}

已收录到oschina： http://www.oschina.net/p/webmagic
github： https://github.com/code4craft/webmagic

猜你喜欢

转载自flashsword20.iteye.com/blog/1913801

分享一个自己写的爬虫框架

分享一个自己写的httpclient工具类

写一个属于自己的PHP的MVC框架（一）

自己手写一个SpringMVC框架

自己写一个MVC框架（三）

自己写一个MVC框架（二）

自己手写一个SpringMVC框架(简化)

自己手写一个Mybatis框架(简化)

【ORM】怎样自己写一个ORM框架-2

【ORM】怎样自己写一个ORM框架-1

聊一个自己写的MVC框架

自己写的一个React事件流处理框架

写一个属于自己的PHP的MVC框架（二）

自己写一个mvc框架吧（二）

自己写一个java的mvc框架吧（五）

自己写一个java的mvc框架吧（四）

自己写一个mvc框架吧（四）

分享一下自己写的一个Yolo的数据增强脚本

PHP MVC框架基础小白（自己动手写一个PHP框架示例）

接口测试框架（QQ：395122991，北京一个测试自己写的接口测试框架）

自己动手写一个QQ空间网络爬虫--qqzoneSpider

python使用爬虫写一个自己的翻译器（带图像界面）

我的第一个爬虫—爬取自己在CSDN上写的文章名称及链接

分享我自己写的一个补丁包打包工具

分享一个自己写的MVC EF 增删改查无刷新分页程序

自己写的一个抢票加速的Python小程序源码分享-----纯属娱乐

分享一个自己写的基于canvas的原生js图片爆炸插件

分享一个以前写的小说网站爬虫py代码

用java写的一个图片爬虫脚本_代码分享

自己写的一个demo

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)