爬虫项目实战：从需求到部署的完整Java爬虫开发流程

CREATE TABLE products (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255) NOT NULL,
    price DECIMAL(10, 2) NOT NULL,
    sales INT NOT NULL,
    reviews INT NOT NULL,
    url VARCHAR(255) NOT NULL,
    created_at DATETIME DEFAULT CURRENT_TIMESTAMP
);

3. 开发实现

3.1 环境配置

Java版本：Java 11及以上
开发工具：IntelliJ IDEA
依赖管理：Maven
爬虫库：Jsoup（解析HTML）、HttpClient（发送HTTP请求）
数据库：MySQL
日志：SLF4J + Logback

pom.xml 配置

<dependencies>
    <!-- HttpClient库 -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.13</version>
    </dependency>
    
    <!-- Jsoup库 -->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.13.1</version>
    </dependency>

    <!-- MySQL JDBC驱动 -->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>8.0.23</version>
    </dependency>

    <!-- SLF4J + Logback日志 -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.30</version>
    </dependency>
    <dependency>
        <groupId>ch.qos.logback</groupId>
        <artifactId>logback-classic</artifactId>
        <version>1.2.3</version>
    </dependency>
</dependencies>

3.2 数据抓取模块

首先，我们使用 HttpClient 发送HTTP请求，抓取商品页面的HTML内容。然后，使用 Jsoup 解析HTML，提取出商品的相关信息。

import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.CloseableHttpResponse;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

import java.io.IOException;

public class Spider {

    private static final String URL = "https://example.com/product_page";  // 示例URL

    public static void main(String[] args) {
        try {
            String html = fetchHtml(URL);
            parseHtml(html);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 发送GET请求获取HTML页面
    public static String fetchHtml(String url) throws IOException {
        try (CloseableHttpClient client = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            try (CloseableHttpResponse response = client.execute(request)) {
                return new String(response.getEntity().getContent().readAllBytes());
            }
        }
    }

    // 解析HTML并提取商品数据
    public static void parseHtml(String html) {
        Document doc = Jsoup.parse(html);
        Element product = doc.selectFirst(".product-details");

        String name = product.select(".product-name").text();
        String price = product.select(".product-price").text();
        String sales = product.select(".sales-count").text();
        String reviews = product.select(".review-count").text();

        System.out.println("商品名称: " + name);
        System.out.println("商品价格: " + price);
        System.out.println("销量: " + sales);
        System.out.println("评论数: " + reviews);
    }
}

3.3 数据存储模块

抓取到的数据需要存入数据库。我们使用JDBC来连接MySQL数据库，并将数据插入到数据库中。

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;

public class Database {

    private static final String URL = "jdbc:mysql://localhost:3306/spider_db";
    private static final String USER = "root";
    private static final String PASSWORD = "root";

    public static void saveProduct(String name, String price, String sales, String reviews, String url) {
        String query = "INSERT INTO products (name, price, sales, reviews, url) VALUES (?, ?, ?, ?, ?)";

        try (Connection conn = DriverManager.getConnection(URL, USER, PASSWORD);
             PreparedStatement stmt = conn.prepareStatement(query)) {

            stmt.setString(1, name);
            stmt.setString(2, price);
            stmt.setString(3, sales);
            stmt.setString(4, reviews);
            stmt.setString(5, url);

            stmt.executeUpdate();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3.4 反爬虫措施

为了绕过目标网站的反爬虫措施，我们可以采取以下策略：

使用代理IP：通过代理池随机使用不同的IP地址。
请求头伪装：模拟常见浏览器的请求头，避免被识别为爬虫。
设置随机请求间隔：避免频繁请求，模拟人工访问。

以下是伪装请求头的示例：

import org.apache.http.HttpHeaders;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.RequestConfig;
import org.apache.http.impl.client.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;

import java.io.IOException;

public class SpiderWithHeaders {

    public static String fetchHtmlWithHeaders(String url) throws IOException {
        CloseableHttpClient client = HttpClients.createDefault();
        HttpGet request = new HttpGet(url);
        request.setHeader(HttpHeaders.USER_AGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");
        try (CloseableHttpResponse response = client.execute(request)) {
            return new String(response.getEntity().getContent().readAllBytes());
        }
    }
}

4. 部署与监控

4.1 定时任务

可以使用 Quartz 或 Spring Scheduler 定时执行爬虫任务，保证数据定期更新。

4.2 部署

将爬虫部署到服务器上，建议使用Linux服务器，并利用 cron 定时任务来定期执行爬虫脚本。

4.3 监控与日志

通过 SLF4J 和 Logback 记录爬虫的日志信息，并设置告警机制，及时发现问题。

5. 总结

本文从需求分析、系统设计、开发实现到部署，详细讲解了一个完整的Java爬虫项目开发流程。通过这个案例，我们可以看到爬虫项目从构思到实际应用所涉及的技术和实践。通过合理的架构设计和代码实现，可以开发出一个高效、稳定且规避反爬虫机制的爬虫系统。

希望这篇文章能够帮助你深入理解Java爬虫的开发流程，并能够帮助你构建一个实际的爬虫项目。

推荐阅读：

Java爬虫中的数据清洗与存储：如何处理不规则数据-CSDN博客

爬虫调度与代理池：如何避免爬虫被封-CSDN博客

并发爬取：使用Java多线程提高爬虫性能-CSDN博客

1. 项目需求分析

1.1 项目背景

1.2 需求分析

2. 系统设计

2.1 架构设计

2.2 数据库设计

商品信息表（products）

示例表结构SQL：