htmlunit这里就不介绍了。笔者刚接触这个时候给这个jar包问题折磨了一会。
现把jar包都归纳起来。附带下载链接:htmlunit基本jar包
可能有的还需要这两个包:
导入以上所有jar包之后来hello word一下。
public static void main(String[] args) throws IOException {
// 实例化Web客户端
WebClient webClient = new WebClient();
// 爬取https网站需要设置为true
webClient.getOptions().setUseInsecureSSL(true);
// 解析获取页面
HtmlPage page = webClient.getPage("https://www.baidu.com");
// 获取Html
System.out.println("网页html:" + page.asXml());
System.out.println("====================");
// 获取文本
System.out.println("网页文本:" + page.asText());
}
这里就可以正常爬取咯。剩下的逻辑就看你自己咯。