使用 Jsoup 构建你的第一个 Java 爬虫

1. Jsoup 简介

2. 环境准备

Maven 依赖配置：

Gradle 依赖配置：

网页爬虫（Web Scraping）已经成为数据收集和分析中的重要工具。通过爬虫技术，我们可以从互联网上获取大量的公开数据，并利用这些数据进行进一步分析、处理、预测等任务。

本文将带你学习如何使用 Java 中的 Jsoup 库，快速搭建一个简单的网页爬虫，并通过该爬虫解析网页内容，提取页面信息。你将学会如何抓取和解析 HTML 页面中的数据，包括文本、链接、图片等内容。我们还将深入解析 Jsoup 的一些常用操作，并举例说明其应用。

1. Jsoup 简介

Jsoup 是一个非常流行的 Java HTML 解析库，它能让我们从网页中抓取和解析数据。Jsoup 提供了许多简单易用的 API，用来处理 HTML 文档中的各种元素，比如表单、链接、图片、表格等等。它的优势在于：

简单易用：只需要几行代码就能完成网页的抓取和解析。
功能强大：支持 CSS 选择器、DOM 操作、数据提取等。
高效稳定：处理大型 HTML 文档时表现出色。

2. 环境准备

要使用 Jsoup，首先需要在项目中引入 Jsoup 库。可以通过 Maven 或 Gradle 来添加依赖。以下是使用 Maven 的方式：

Maven 依赖配置：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.3</version> <!-- 请根据最新版本进行调整 -->
</dependency>

Gradle 依赖配置：

implementation 'org.jsoup:jsoup:1.15.3'

3. 构建一个简单的网页爬虫

我们将以抓取某个网页并提取页面中的所有标题和链接为例。以下是一个简单的爬虫示例：

代码实现：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class SimpleCrawler {
    public static void main(String[] args) {
        // 目标URL
        String url = "https://www.example.com";  // 修改为你想爬取的网址

        try {
            // 通过 Jsoup 连接到网页并获取页面内容
            Document doc = Jsoup.connect(url).get();

            // 提取所有的标题元素（这里以 h1 为例）
            Elements titles = doc.select("h1");

            // 提取所有的链接（a 标签）
            Elements links = doc.select("a[href]");

            // 打印所有标题
            System.out.println("页面标题：");
            for (Element title : titles) {
                System.out.println(title.text());
            }

            // 打印所有链接
            System.out.println("\n页面链接：");
            for (Element link : links) {
                System.out.println(link.attr("href"));
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

4. 代码解析

Jsoup.connect(url).get()：这是 Jsoup 用来连接到指定 URL 并抓取页面内容的核心方法。connect(url) 会返回一个 Connection 对象，调用 .get() 会发起请求并返回一个 Document 对象，Document 对象表示整个 HTML 页面。
doc.select("h1")：select 方法使用 CSS 选择器来提取 HTML 元素。在这里，我们使用 h1 来提取所有的标题元素。你可以根据需要修改选择器，例如 p 表示段落、a[href] 表示所有带有链接的 <a> 标签。
doc.select("a[href]")：类似于提取标题，我们也可以提取页面中的所有超链接。a[href] 选择器会选中所有 <a> 标签且有 href 属性的元素。

5. 执行效果

假设我们使用的是 https://www.example.com 作为目标网址，执行结果可能类似于：

页面标题：
Example Domain

页面链接：
https://www.iana.org/domains/example

通过上面的爬虫代码，我们成功地提取了网页的标题和链接。你可以根据实际需求修改选择器，提取页面的其他信息。

6. 进阶功能：处理分页和数据存储

如果你想抓取多个页面，或者需要提取更复杂的数据，可以扩展爬虫的功能。例如，我们可以模拟点击下一页，抓取分页内容。还可以将提取的数据保存到本地文件、数据库或其他数据存储系统中。

模拟分页抓取

假设每页有一个“下一页”链接，我们可以通过以下方式抓取多页数据：

public class PaginatedCrawler {
    public static void main(String[] args) {
        String url = "https://example.com/page=1"; // 假设分页 URL 格式是 page=1

        for (int page = 1; page <= 5; page++) {
            try {
                // 获取当前页面内容
                Document doc = Jsoup.connect(url + page).get();
                System.out.println("抓取第 " + page + " 页的内容");

                // 提取数据
                Elements titles = doc.select("h1");
                for (Element title : titles) {
                    System.out.println(title.text());
                }

                // 如果下一页链接存在，继续抓取
                Elements nextPageLink = doc.select("a.next");
                if (nextPageLink.isEmpty()) {
                    break;  // 如果没有下一页链接，结束爬取
                }

            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

数据存储：将数据保存为 CSV 文件

如果你想将爬取到的数据存储到文件中，下面是一个简单的示例，展示如何将数据保存为 CSV 文件：

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;

public class DataStorage {
    public static void main(String[] args) {
        String url = "https://www.example.com";
        String outputFile = "output.csv";

        try (BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile))) {
            Document doc = Jsoup.connect(url).get();
            Elements links = doc.select("a[href]");

            // 写入 CSV 头部
            writer.write("URL,Text\n");

            // 写入每个链接的数据
            for (Element link : links) {
                String linkUrl = link.attr("href");
                String linkText = link.text();
                writer.write(linkUrl + "," + linkText + "\n");
            }

            System.out.println("数据已保存到 " + outputFile);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

7. 小结

在本文中，我们介绍了如何使用 Jsoup 库构建一个简单的 Java 网页爬虫。你学会了如何连接到网页，解析 HTML 内容，提取各种元素（如标题和链接）。同时，我们还介绍了如何扩展爬虫功能，例如处理分页、存储数据等。

Jsoup 是一个非常强大的工具，它不仅能帮助你从网页中抓取信息，还能处理复杂的 HTML 结构，支持 CSS 选择器、DOM 操作等功能，适用于许多数据抓取和网页分析的场景。

通过不断的实践和学习，你将能够构建更加复杂和强大的爬虫，去抓取和分析各种数据，解决实际问题。希望本文能为你入门网页爬虫提供一些启发和帮助！

1. Jsoup 简介

2. 环境准备

Maven 依赖配置：

Gradle 依赖配置：

3. 构建一个简单的网页爬虫

代码实现：

4. 代码解析

5. 执行效果

6. 进阶功能：处理分页和数据存储

模拟分页抓取

数据存储：将数据保存为 CSV 文件

7. 小结

猜你喜欢

目录

热门文章