寒假日报day20

经过这些天的深思,以及在各位前辈的帮助下,我的webmagic终于突破重重险阻,成功的跑了起来,现在趁着他在跑的空余(估计要跑好一阵了,现在秒速10条左右的记录,但以我的经验来看,一会就慢了),来讲这些天的所得所感写一下,个人觉得,写博客确实是一件好事,但在规则约束下的博客并不能体现我的诚意,就像我的前几篇博客,大多是没有什么用的博客,大多是给自己心里暗示:我写了博客,这样会降低自己的学习欲望。先附上本次的成果,冰山一角。

 由于对线程的了解还不是很多,所以我暂时只开了10个线程,说说本次爬虫遇到的问题。

首先第一点:webmagic算是一个比较冷门的爬虫吧,可能是因为pathon的走红,导致java的webmagic在网上很少更新,这就导致了我在度娘时,度了好几个小时都是同一个文章,或者时老的不能在老的,又或是英文。。(还不知道自己六级过没过,),还有啊,有教程但是自己小白一个,啥也看不懂,导致了自己工程进度很慢很慢,在看到其他人用各种各样的(80以上是python)方法,爬虫成功,而自己还在苦恼的度娘时,我想过很多次放弃去转python,但是我没有,总是想着我也可以,一定是某些地方出了错,而自己不熟悉,所以我看了n多视频,详解,中间穿插着各种放弃的念头,但是我放弃也只是去放松一下,打打游戏,看看视频,看的累了就去看webmagic的视频,加一下视频的主人,然后去问人家,哎呀,太难了。总之就是,他不火了。。。

但万幸的是,我成功了。

第二点:关于selenium的说法,我在网上查资料的时候,开始做下一页的数据,但是这个很难,所以我去度娘,度娘给的答案很多都是关于selenium的尝试,刚开始点进去看了看,觉得可行,事实确实可行,但是在随后的问题中我又迷失了,后来看到一篇文章说,能用post就不要用selenium后来觉得确实,因为每使用一次selenium都会启动一次网页的驱动器,会占一个线程(端口),这样很浪费资源,也很慢,也很难。

第三点:对于post请求,我刚开始看这个页面的时候,懵懵懂懂,但是也知道,数据是从那里过来的:如下图

 就算我再傻,我也知道这就是数据的来源,但难就难在如何获取这个,那就是发送post请求了,那如何知道自己的请求是否发出去了,是否是正确的,那就需要用到postman了关于这个的介绍,我会在之后(或者之前,补以前漏下的博客)的博客里说明,之后再给链接。

大概就是这样子的:

发送成功是这样子的:

第一种:啥参数都没有:

 这就是一个假的网页,专门应付爬虫的,俗称反扒,这个假网页也是可以转json的,让人觉得自己的数据是对的,但是这是假的。真的是需要参数的,如下:

首先啊,参数:

 其次,post请求,发送就可以了,出来是这样子的:

 这个就跟上面对应起来了,begin都是300.之后再详细解释,本人会专门写一篇博客讲解的。

这就证明自己是对的了,走到这一步,你已经离成功很近了,我可是费了很大劲才走到这的。

接下来就是代码了,每次我发送【post】请求的时候,都会出来自己请求错误,上百次的尝试,改参数改了一次又一次,在用postman确定了参数没问题后,我又尝试了,还是不对,后来是在前辈的指导下,才知道 哪里错了,后面的博客会讲到。

 暂时就这些了。

猜你喜欢

转载自www.cnblogs.com/msdog/p/12304157.html