java爬虫工具htmlunit hello word示例(附带亲测可用所有jar包)

htmlunit这里就不介绍了。笔者刚接触这个时候给这个jar包问题折磨了一会。

现把jar包都归纳起来。附带下载链接:htmlunit基本jar包

可能有的还需要这两个包:

jetty-websocket.jar

jsoup.jar

导入以上所有jar包之后来hello word一下。

public static void main(String[] args) throws IOException {
    // 实例化Web客户端
    WebClient webClient = new WebClient();
    // 爬取https网站需要设置为true
    webClient.getOptions().setUseInsecureSSL(true);
    // 解析获取页面
    HtmlPage page = webClient.getPage("https://www.baidu.com");
    // 获取Html
    System.out.println("网页html:" + page.asXml());
    System.out.println("====================");
    // 获取文本
    System.out.println("网页文本:" + page.asText());
}

这里就可以正常爬取咯。剩下的逻辑就看你自己咯。

猜你喜欢

转载自blog.csdn.net/wkh___/article/details/86076256