Python_瓜子二手车爬虫破解和采集

前沿

写这个是因为有同学毕业设计做的二手车价格的分析,索性帮帮他最开始给他写了一个 58同城二手车价格的采集已经 采集出来的数据量完全够他用了。这里看一下 58 二手车的采集数量如下图:
在这里插入图片描述
这里采集的总量为 14万的数据,源码链接:58二手车采集源码传送门作者这里放在了自己的资源中给自己涨的积分不为过吧。
搞完 58的二手车便想着看看是否可以采集一波瓜子二手车的价格,索性趁现在不算特别忙练习一下爬虫,毕竟好久没有搞过了,然而却发现 瓜子二手车竟然做了反爬虫措施,没办法他做了我只有破解它了,尴尬…我只是练习一下反爬技术并未对贵公司造成影响哟。请勿给我发律师函…

一:看了网上大多数人写的瓜子二手车价格的爬虫必须要加入 cookies才能采集,确实这是一种方法,不过他可能并没有分析这个cookie到底是怎么来的,今天就为大家分析一波。

工具:fillder抓包工具是必备的。
步骤如下:
一:清除浏览器的缓存和cookies值【建议】并打开 fiddler
二:直接访问此链接:https://www.guazi.com/www/buy
三:查看 fiddler 分析cookies产生的原因,如下图:
在这里插入图片描述
可以明显的看到链接访问了两次,第二次才访问到真正的信息,那么猜想是不是因为第一访问设置了cookies了呢?如果是这样的话不就好办了,直接通过session建立通道进行访问美滋滋,所以去看一下第一个链接是否设置了cookies
在这里插入图片描述
查看来看:完全没有设置cookies呀 不仅考虑一下这个cookies应该是第一步进行了加密产生了cookies,然后进行携带这个cookies进行了跳转,所以就分析一下第一个链接的HTML如下如图:
在这里插入图片描述
很明显这个eval加载的js应该是产生了cookies,那边分析这个eval加载的js文件吧,首先通过网上免费的站长格式化:http://tool.chinaz.com/Tools/jsformat.aspx 进行格式化一下。
在这里插入图片描述
看到上边的便想这么多参数一定是在这里产生了cookies这个时候感觉这个js文件还是很乱,便考虑在浏览器上使用断点分析('f u(x,y){e M=(x&N)+(y&N);e 1f=(x>>16)+(y>>16)+(M>>16);h(1f<<16)|(M&N)}f 1g(O,P){h(O<<P)|( 这一串函数到底做了什么?

打断点

一:
在这里插入图片描述
二:
在这里插入图片描述
很明显看到了cookies的产生,改造一下加密函数,console控制台走一哈如下图:
在这里插入图片描述
很明显便看到了cookies产生了。对比正确的请求发现是不是需要antipas这个参数并且每次访问都会不同。
在这里插入图片描述
是不是通过这样就不需要每次去粘贴一个cookies值了呢?分析结束希望能帮到你。
结果:作者这里进行了采集,需要代理IP的原因,作者这里去网上随便下载了4个免费的代理IP采集出来了 2000多条信息。
在这里插入图片描述
有更好的加密网站志同道合的朋友一起研究哟。

猜你喜欢

转载自blog.csdn.net/weixin_42812527/article/details/89478382