关于使用JAVA来实现爬虫的一个简单的DEMO(2)

  好的,再(1)中,我们实现了获取标题,那么,能不能获取复杂一点的呢,比如说下载图片啥的(我的初衷)。

  总所周知,下载文件需要啥,需要一个URL对吧,咱拿我最近的一个练手的网站来说吧。(媚韵)

  众所周知,这个爬虫肯定是很多时候不能通用的,得因站制宜。我们得先观察一下它的结构才行。

<p>
<img  class="aligncenter size-full wp-image-25880" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" 
data-src="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg"
width="1068" height="1600" data-srcset="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg 1068w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-200x300.jpg 200w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-768x1151.jpg 768w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-684x1024.jpg 684w" data-sizes="(max-width: 1068px) 100vw, 1068px" />
<br />

<img>标签没跑了,data-src带了jpg后缀,试试,能打开,文件大小也对。

那我们的目的很明确了,就是将这些url(data-src)给找到,统一传给下载方法,就可以自动下载啦。

那么现在有两个问题

1.如何找出这些URL

2.如何下载

  如果有看过咱系列(1)的话,仍然是使用正则表达式最优。

还是这个表达式,?<= 和 ?=

(?<=data-src=\").+?(?=\")(\为转义字符创)

得到后在进行下载即可。文末附上全代码文件

  

发布了2 篇原创文章 · 获赞 0 · 访问量 68

猜你喜欢

转载自blog.csdn.net/weixin_40792858/article/details/104096254