WebMagic爬图片

WebMagic爬图片,简单

jar包等就不导了,直接上代码。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
* @author ZFH
* @version 创建时间:2018年11月17日 上午8:34:55
*/
/**
* @author ZFH
* @version 创建时间:2018年11月17日 上午8:34:55
*/
public class WebmagicUtilP implements PageProcessor{
	/**
	*     爬取的列表页,页数。
	*/
	/**
	* 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等
	*/
	 private Site site = Site.me().setSleepTime(1000).setRetryTimes(3);  
	/**
	* 爬取图片
	*/
	 int j=1;
	public void process(Page page) {
		
		//获取图片
		while(page.getHtml().xpath("//span[@class=\"RichText ztext CopyrightRichText-richText\"]/figure["+j+"]/img").css("img","data-original").toString()!=null) {
		String string1 = page.getHtml().xpath("//span[@class=\"RichText ztext CopyrightRichText-richText\"]/figure["+j+"]/img").css("img","data-original").toString();
		j++;
		System.out.println(string1);
		}
	}
	/**
	* 设置属性
	*/
	public Site getSite() {
	   return site;
	}

	public static void main(String[] args) {
	   System.out.println("开始爬取...");
	   String url = "https://www.zhihu.com/question/29784516/answer/54897151";
	   //启动爬虫
	   Spider.create(new WebmagicUtilP())
	           //添加初始化的URL
	           .addUrl(url)
	           .thread(1)
	           //运行 
	           .run();
	   System.out.println("爬取结束");
	}

}

图片:
在这里插入图片描述
在这里插入图片描述

结果如下:

在这里插入图片描述
有人肯定会疑惑,为什么不取img的src呢?
因为img的src属性获得不了,是这样的:
在这里插入图片描述

暂时先这样弄,我再研究一下如何下载这些图片。。。

猜你喜欢

转载自blog.csdn.net/weixin_43075298/article/details/84578216