并发爬取：使用Java多线程提高爬虫性能

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class SingleThreadCrawler {

    public static void main(String[] args) {
        String[] urls = {"https://www.example.com", "https://www.example.org", "https://www.example.net"};
        
        for (String url : urls) {
            fetchPage(url);
        }
    }

    private static void fetchPage(String urlString) {
        try {
            URL url = new URL(urlString);
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("GET");
            connection.setConnectTimeout(5000);
            connection.setReadTimeout(5000);
            
            BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
            String inputLine;
            while ((inputLine = in.readLine()) != null) {
                System.out.println(inputLine);
            }
            in.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在上述代码中，爬虫通过逐一访问网页URL并打印网页内容，明显缺乏并发，爬取速度较慢。

3.2 使用多线程提升爬取性能

为了提高爬取性能，可以使用Java的线程池来同时抓取多个网页。通过线程池，我们可以控制并发线程的数量，避免线程过多导致资源消耗过大。

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class MultiThreadCrawler {

    private static final ExecutorService executor = Executors.newFixedThreadPool(5); // 创建一个固定大小的线程池

    public static void main(String[] args) {
        String[] urls = {"https://www.example.com", "https://www.example.org", "https://www.example.net"};
        
        for (String url : urls) {
            executor.submit(() -> fetchPage(url)); // 提交任务给线程池
        }
        
        executor.shutdown(); // 关闭线程池
    }

    private static void fetchPage(String urlString) {
        try {
            URL url = new URL(urlString);
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("GET");
            connection.setConnectTimeout(5000);
            connection.setReadTimeout(5000);
            
            BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
            String inputLine;
            while ((inputLine = in.readLine()) != null) {
                System.out.println(inputLine);
            }
            in.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在这个多线程爬虫示例中，我们使用了一个固定大小为5的线程池，通过submit()方法提交爬取任务。当每个任务完成时，线程池会将线程释放，以便其他任务使用。通过这种方式，爬虫可以同时抓取多个网页，从而大大提升爬取速度。

3.3 使用线程池优化性能

线程池优化要点：

控制线程数：根据系统的性能和网络带宽，合理调整线程池的大小。线程数过多会导致系统资源耗尽，过少则无法充分利用并发带来的性能提升。
合理使用缓存池：如果任务量不确定，使用Executors.newCachedThreadPool()来动态增加或减少线程数。
任务队列：线程池内部会有一个任务队列，确保任务有序执行。避免线程池过度并发导致任务的顺序混乱。

3.4 代码优化：限制爬取速率

爬虫在抓取大量数据时，可能会给目标网站带来过大的压力。因此，我们可以通过限制爬取的速率来防止过度抓取。可以使用Thread.sleep()来模拟爬虫的延时。

private static void fetchPageWithRateLimit(String urlString) {
    try {
        // 加入爬虫速率限制，避免频繁请求
        Thread.sleep(1000); // 每爬取一个页面等待1秒钟

        URL url = new URL(urlString);
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        connection.setRequestMethod("GET");
        connection.setConnectTimeout(5000);
        connection.setReadTimeout(5000);

        BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String inputLine;
        while ((inputLine = in.readLine()) != null) {
            System.out.println(inputLine);
        }
        in.close();
    } catch (Exception e) {
        e.printStackTrace();
    }
}

通过添加Thread.sleep(1000)，我们控制了每次请求之间的间隔，避免了短时间内对服务器的过度请求。

四、线程池对比与选择

线程池类型	适用场景	优缺点
FixedThreadPool	适用于任务量固定，且并发量可预估的场景	线程数固定，资源控制较好，避免线程过多
CachedThreadPool	适用于任务量不固定，任务生命周期短的场景	线程池自动伸缩，适合短期任务，但可能会增加资源消耗
SingleThreadExecutor	适用于顺序执行任务的场景	保证任务顺序执行，但无法利用并发优势