以浙江法院公开网的送达公告数据为例:
http://www.zjsfgkw.cn/TrialProcess/NoticeSDList
1.分析页面
看到参数有3个,分别是cbfy,pageno和pagesize。传回来的数据是以json形式存在:
2.json的解析方法
webmagic-extension包中提供了JsonPathSelector这种选择语言来选择数据,如我们需要取得json中的CaseNo的信息
List<String> CaseNo = new JsonPathSelector("$.list[*].CaseNo").selectList(page.getRawText());
然后得到的是一个size为10的列表。
3.main函数代码
由于webmagic有自动去重的功能,开始查了资料,网上说是需要重新编写DuplicateRemover这个类,https://www.oschina.net/question/2625566_2151021。但是其实有更加简单的方法,那就是用url+提交的参数,如第二页的数据url便是:http://www.zjsfgkw.cn/Notice/NoticeSD?cbfy=&pageno=2&pagesize=10。下面是爬前10页的代码,:
PageProcessor pageProcessor = new sd_notice();
Spider spider = Spider.create(pageProcessor);
for (int i = 1; i < 10; i++) {
String url = null;
Map<String, Object> nameValuePair = new HashMap<String, Object>();
NameValuePair[] values = new NameValuePair[3];
values[0] = new BasicNameValuePair("pagesize", "10");
values[1] = new BasicNameValuePair("cbfy", "");
values[2] = new BasicNameValuePair("pageno", String.valueOf(i));
nameValuePair.put("nameValuePair", values);
url = "http://www.zjsfgkw.cn/Notice/NoticeSD?cbfy=&pageno="+String.valueOf(i)+"&pagesize=10";
Request request = new Request(url);
request.setExtras(nameValuePair);
request.setMethod(HttpConstant.Method.POST);
spider.addRequest(request);
}
spider.thread(3).run(); //开启三个线程来爬
参考资料:
【1】http://webmagic.io/docs/zh/posts/chx-cases/js-render-page.html
【2】https://github.com/code4craft/webmagic/issues/258
【3】https://github.com/code4craft/webmagic/issues/108