寒假日报day02

  今天呢,算是完成昨天的一点小结尾,昨天按照教程爬了半天数据发现没有什么卵用,后来我想找到问题之所在,第一步锁定了网站的正确性上,发现这确实是一个问题,网站404了。后来我按照题目的提示找到首都之窗这个网站,但是寻找他的信件的网络源码的时候发现,他的排版跟以前大不一样了,并不是以前那种可以简单按照网页页数来递增爬取的了,以前是这个样子:

现在是这个样子:

首先,网页地址改了,

并不是

 这个进去是notfound的。

现在的源码:

 可以看到,这样就不能按照原来的方式进行爬取了,需要另寻出路了,具体如何,下次见。

今天还顺便吧idea以及scala下载到了本机,虚拟机上的操作等本机熟悉基础操作后在进行。

 我发现,这个idea有好多个版本,很容易搞混。

Scala的安装;环境变量配置:

 scala的版本信息:

安装成功,明天继续,休息,zzZ.

今天爬到的一大堆无用数据:

 

 

 当我看到这些页面的时候本来还很开心,因为第一眼看去有数据!!!再一看不对,都是一样的,按下暂停,一看页面是空的,好了,有问题,回去复查。

猜你喜欢

转载自www.cnblogs.com/msdog/p/12181199.html