百度指数 爬虫 更新版

版权声明: https://blog.csdn.net/qq_26877377/article/details/82887023

current time: 2018.9.28 17.30 正常

current time: 2018.10.30 18.40 正常

记录一下前段时间的工作~~

       主要写了  电商爬虫:淘宝,天猫,京东

                        汽车类爬虫:汽车之家,易车网,太平洋汽车

                        信息类爬虫:微博,微信

                        手机app类网站:百度手机助手,360手机助手

                         指数查询类:百度指数,搜狗指数

                         其它:大众点评,美团,站长之家,淘票票,百度搜索等等 

更新一下百度指数爬虫,

主要思路如下:

1.先模拟登陆自动化登陆百度,保存cookie  ,(ps,我是2种都做了,但是使用requests进行模拟登陆的时候,怎么调程序都需要输入4位中文验证码,这里我是使用打码平台直接识别, 使用selenium 登陆 ,没有参数异常或验证码)

2.使用cookie 添加到selenium,获取到关键参数res 和res2,然后selenium就可以关闭了

3.使用res 和res2 请求得到res3,res3即每一天的关键字参数

4.使用res,res2,res3,来获取每一天 的div段落,获取其中的偏移距离

5.继续使用res,res2,res3,得到对应的初始图片

6,使用PIL 我们自己手动来切割图片,然后在拼接图片,得到完好 可图的图片,其中每个字符占8px,

7.我们使用8px来切割图片,得到每一个字母的图片,这个时候图片是8*14,而且我发现,这个时候的图片相同字符是不变,即我们根本不需要什么TensorFlow 或python的其它orc来进行识别,识别及耗费时间,又耗费cpu,我们可以使用Imagchops来对图片进行比对,这里测试了几千张,每一张图片都是在0-9 和,里面

难点解读:

res 可以直接是页面直接返回,res2是需要js执行得到,这里我是使用selenium 执行了页面,然后 return res2的相关变量得到的res2

这里准确率 理论上是100%

然后再写一些我听说的各种限制:

2018.4月以前,百度是只对ip限制,ip访问频繁会有验证码,但是2018.4月更新后,也会对账号访问次数做限制,据说是1天300次,另外 这个账号在手机端 和 pc 端的访问次数是独立的

出于劳动成果 和 对百度的~~ ,这里就不发完整代码了 ,有需要的话可以发信息到我 邮箱找我 Emile :[email protected](有偿)

猜你喜欢

转载自blog.csdn.net/qq_26877377/article/details/82887023