current time: 2018.9.28 17.30 正常

current time: 2018.10.30 18.40 正常

记录一下前段时间的工作~~

主要写了电商爬虫：淘宝，天猫，京东

汽车类爬虫：汽车之家，易车网，太平洋汽车

信息类爬虫：微博，微信

手机app类网站：百度手机助手，360手机助手

指数查询类：百度指数，搜狗指数

其它：大众点评，美团，站长之家，淘票票，百度搜索等等

更新一下百度指数爬虫，

主要思路如下：

1.先模拟登陆或自动化登陆百度，保存cookie ，(ps,我是2种都做了，但是使用requests进行模拟登陆的时候，怎么调程序都需要输入4位中文验证码，这里我是使用打码平台直接识别，使用selenium 登陆，没有参数异常或验证码）

2.使用cookie 添加到selenium，获取到关键参数res 和res2，然后selenium就可以关闭了

3.使用res 和res2 请求得到res3，res3即每一天的关键字参数

4.使用res，res2，res3，来获取每一天的div段落，获取其中的偏移距离

5.继续使用res，res2，res3，得到对应的初始图片

6，使用PIL 我们自己手动来切割图片，然后在拼接图片，得到完好可图的图片，其中每个字符占8px，

7.我们使用8px来切割图片，得到每一个字母的图片，这个时候图片是8*14，而且我发现，这个时候的图片相同字符是不变，即我们根本不需要什么TensorFlow 或python的其它orc来进行识别，识别及耗费时间，又耗费cpu，我们可以使用Imagchops来对图片进行比对，这里测试了几千张，每一张图片都是在0-9 和，里面

难点解读：

res 可以直接是页面直接返回，res2是需要js执行得到，这里我是使用selenium 执行了页面，然后 return res2的相关变量得到的res2

这里准确率理论上是100%

然后再写一些我听说的各种限制：

2018.4月以前，百度是只对ip限制，ip访问频繁会有验证码，但是2018.4月更新后，也会对账号访问次数做限制，据说是1天300次，另外这个账号在手机端和 pc 端的访问次数是独立的

出于劳动成果和对百度的~~ ，这里就不发完整代码了，有需要的话可以发信息到我邮箱找我 Emile ：[email protected](有偿)

百度指数爬虫更新版

current time: 2018.9.28 17.30 正常

current time: 2018.10.30 18.40 正常

猜你喜欢

百度指数 爬虫 更新版

current time: 2018.9.28 17.30 正常

current time: 2018.10.30 18.40 正常

猜你喜欢

百度指数爬虫更新版