八、学习爬虫框架WebMagic（四）---使用webmagic+Selenium爬取小说

一、案例说明
本案例以爬取某小说网站某本小说为例（PS：避免商业问题，这里不提小说网站名）

二、先期准备
关于 webmagic+Selenium 的相关依赖，参见七、学习爬虫框架WebMagic（三）—webmagic+Selenium爬取动态页面

三、构建项目

（一）项目分析
在某小说网站找到一本小说的列表，如下：
在这里插入图片描述

根据页面，然后分析网页源码，可知在这个页面中，下一页的网址和每篇文章的网址会给出。然后，根据查询源码可知，下一页的网址和每篇文章的网址是通过 JS 动态加载的，所以框架选型就是 Webmagic+Selenium。

根据 Webmagic 框架的特点，只要我们定好爬取规则，它会一直爬取下去直到结束。每页和每篇文章的URL，可通过爬取每页URL抽取出来。比如我爬取第一页，我就会找到第二页的URL和第一页中所有文章的URL，爬取第二页就会找到第三页URL。以此类推，我们只要找到每页URL，即可找到该页所有文章URL和下一页URL。所以，我制定的爬取业务逻辑是：

找出页面中的所有URL（链接），然后根据翻页和每篇文章的URL的规则，设计正则表达式，对符合条件的URL进行爬取。

注意：Webmagic 框架会自动帮我们去重。比如：我们在首页会找到末页和第二页的URL，这是我们第一次访问到末页的URL。在我们遍历第二页的时候，还会找到第三页的URL，以此类推，最后我们还会找到末页URL一次，这样我们会爬取末页URL两次。但是，Webmagic 框架会记录已经爬取过的网页，再次遇到末页URL的时候，会将它剔除出去，不再爬取。

（二）代码

1、爬取业务规则

package org.pc.exercise;

import org.pc.webmagic.update.SeleniumDownloader;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.util.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.List;
import java.util.regex.Pattern;

/**
 * @author 咸鱼
 * @date 2018/12/31 10:13
 */
public class NovelPageProcessorInBiQuGe implements PageProcessor {

    private final Logger LOGGER = LoggerFactory.getLogger(this.getClass());
    /**
     * 每页URL正则
     */
    private static final String CHAPTER_URL = "http://m.biquyun.com/1_1559_\\d+/";
    /**
     * 每篇文章URL正则
     */
    private static final String CONTENT_URL = "http://m.biquyun.com/wapbook/1559_\\d+\\.html";
    
    private Pattern chapterPattern = Pattern.compile(CHAPTER_URL);
    private Pattern contentPattern = Pattern.compile(CONTENT_URL);

    private Site site;

    /**
     * 目标URL
     */
    private static final String NOVEL_URL = "http://m.biquyun.com/1_1559_1/";


    @Override
    public void process(Page page) {
        String url = page.getUrl().toString();
        if (chapterPattern.matcher(url).find()){
            chapterProcess(page);
        } else if (contentPattern.matcher(url).find()){
            contentProcess(page);
        } else {
            LOGGER.info("该URL：" + url + "不是目标路径");
        }

    }

    /**
     * 取出每章节中章节名，小说的内容
     * @param page
     */
    private void contentProcess(Page page) {
        Html pageHtml = page.getHtml();
        String bookName = pageHtml.xpath("//h1[@id='chaptertitle']/text()").toString();
        String content =  pageHtml.xpath("//div[@id='novelcontent']/p/text()").toString();
        page.putField("bookName", bookName);
        page.putField("content", content);
    }

    /**
     * 取出小说章节列表中所有章节地址，并放进爬取队列
     */
    private void chapterProcess(Page page) {
        Html pageHtml = page.getHtml();
        //取出所有链接
        List<String> links = pageHtml.links().all();
        if (!CollectionUtils.isEmpty(links)){
            links.forEach((link) -> {
                //只有每页URL和每篇文章的URL才会进行爬取
                if (chapterPattern.matcher(link).find() || contentPattern.matcher(link).find()) {
                    page.addTargetRequest(link);
                }
            });
        } else {
            LOGGER.warn("没有取到小说章节地址！");
        }
    }

    @Override
    public Site getSite() {
        if (site == null) {
            site = Site.me().setDomain("http://m.biquyun.com/")
                    .setSleepTime(1000);
        }
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new NovelPageProcessorInBiQuGe())
                .addUrl(NOVEL_URL)
                //自定义Pipeline，需设置文件输出地址
                .addPipeline(new NovelFilePipeline("E:\\demo\\novel"))
                //修改后的SeleniumDownloader
                .setDownloader(new SeleniumDownloader("E:\\demo\\crawler\\chromedriver.exe"))
                .thread(5)
                .run();
    }

}

2、处理规则（输出到文件）

package org.pc.exercise;

import com.sun.xml.internal.stream.writers.UTF8OutputStreamWriter;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.util.StringUtils;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.utils.FilePersistentBase;

import java.io.*;

/**
 * @author 咸鱼
 * @date 2018/12/31 11:02
 */
public class NovelFilePipeline extends FilePersistentBase implements Pipeline {

    private Logger logger = LoggerFactory.getLogger(getClass());

    public NovelFilePipeline() {
        setPath("E:\\demo\\novel");
    }

    public NovelFilePipeline(String path) {
        setPath(path);
    }

    @Override
    public void process(ResultItems resultItems, Task task) {
        String bookName = resultItems.get("bookName");
        String rawContent = resultItems.get("content");
        if (StringUtils.isEmpty(bookName) || StringUtils.isEmpty(rawContent)){
            return;
        }
        //将空格替换成换行
        String content = rawContent.replace("    ", "\r\n\t");
        String path = this.path + PATH_SEPERATOR + bookName + ".txt";
        PrintWriter writer = null;
        try {
            writer = new PrintWriter(new UTF8OutputStreamWriter(new FileOutputStream(getFile(path))));
            writer.print(content);
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (writer != null) {
                writer.close();
            }
        }
    }
}

八、学习爬虫框架WebMagic（四）---使用webmagic+Selenium爬取小说

猜你喜欢