WebMagic爬图片 - 代码天地

WebMagic爬图片

其他 2018-11-28 20:24:02 阅读次数: 0

WebMagic爬图片，简单

jar包等就不导了，直接上代码。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
* @author ZFH
* @version 创建时间：2018年11月17日 上午8:34:55
*/
/**
* @author ZFH
* @version 创建时间：2018年11月17日 上午8:34:55
*/
public class WebmagicUtilP implements PageProcessor{
	/**
	*     爬取的列表页，页数。
	*/
	/**
	* 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等
	*/
	 private Site site = Site.me().setSleepTime(1000).setRetryTimes(3);  
	/**
	* 爬取图片
	*/
	 int j=1;
	public void process(Page page) {
		
		//获取图片
		while(page.getHtml().xpath("//span[@class=\"RichText ztext CopyrightRichText-richText\"]/figure["+j+"]/img").css("img","data-original").toString()!=null) {
		String string1 = page.getHtml().xpath("//span[@class=\"RichText ztext CopyrightRichText-richText\"]/figure["+j+"]/img").css("img","data-original").toString();
		j++;
		System.out.println(string1);
		}
	}
	/**
	* 设置属性
	*/
	public Site getSite() {
	   return site;
	}

	public static void main(String[] args) {
	   System.out.println("开始爬取...");
	   String url = "https://www.zhihu.com/question/29784516/answer/54897151";
	   //启动爬虫
	   Spider.create(new WebmagicUtilP())
	           //添加初始化的URL
	           .addUrl(url)
	           .thread(1)
	           //运行 
	           .run();
	   System.out.println("爬取结束");
	}

}

图片：
在这里插入图片描述

结果如下：

在这里插入图片描述
有人肯定会疑惑，为什么不取img的src呢？
因为img的src属性获得不了，是这样的：

暂时先这样弄，我再研究一下如何下载这些图片。。。

猜你喜欢

转载自blog.csdn.net/weixin_43075298/article/details/84578216

webmagic爬取图片

WebMagic爬图片

java爬虫WebMagic框架爬取小姐姐的图片

使用webmagic爬小说初试

WebMagic爬取应用市场应用信息

基于 webmagic 的知乎爬取[GitHub]

webMagic--注解爬取数据

使用WebMagic框架爬取京东数据

WebMagic

七、学习爬虫框架WebMagic（三）---webmagic+Selenium爬取动态页面

八、学习爬虫框架WebMagic（四）---使用webmagic+Selenium爬取小说

webmagic是个神奇的爬虫（二）-- webmagic爬取流程细讲

好用的java爬虫框架webmagic爬取CSDN

利用WebMagic的Cookie机制进行页面爬取

JAVA爬虫框架WebMagic爬取ajax请求的页面数据

JAVA编程134——webmagic爬虫爬取网页招聘信息

webMagic入门案例 -- 爬取微博热搜

[Java爬虫-WebMagic]-05-多级爬取

[Java爬虫-WebMagic]-04-处理爬取的结果

学习使用Java的webmagic框架爬取网页内容

WebMagic简单爬取Bilibili网页数据

Java 爬取 51job 数据 WebMagic实现

Java爬虫---使用WebMagic爬取小说数据

使用webmagic爬取51job网站的招聘信息

使用WebMagic爬取51job上的招聘信息

利用WebMagic爬豆瓣电影数据（注解版本）

利用Spring Boot WebMagic MyBatis 爬数据并存入mysql

【Java-Crawler】爬取动态页面（WebMagic、Selenium、ChromeDriver）

【Java-Crawler】爬取动态页面（HtmlUnit、WebMagic）

爬图片

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)