关于爬虫风控的记录

在解决一个反爬过程中，突然有了一点想法

目前大部分网站对爬虫的忍耐度都比较高可能缺少一个简单好用的反爬策略吧，毕竟爬虫与反爬是一种相互学习相互增长的过程

遇到的是这个网站想要风控的时候（可能随机、可能检测到了什么但不确定）返回一串密文和一串JS，用户使用正常浏览器访问的时候，浏览器会默认的触发JS，该JS会对密文进行解密（注意，密文和JS是混淆过的），然后有一串真正有效的JS生成了，其中还会有一些全局变量，这串JS会触发网站对XMLHttpRequest的修改，从而生成一串特殊密文MnEwMD=...................

emmmmm 看起来就比较的麻烦，不过总是有办法的。

以为我会写怎么解决的过程吗？不存在的，在查问题的过程中找到一个博文，说的很详细了，不信你们去看：http://www.qingpingshan.com/m/view.php?aid=239312

这里重点说一下想法：

1. 反爬虫重点是识别人机，所以有了验证码之类的，不过随着机器识别之类的发展，简单的验证码已经很难阻拦了，所以有了各种各样的验证码，你看：https://007.qq.com/online.html

2.还有就是增加一些浏览器可以做，但是非浏览器不能做的事情，比如JS的究极加密，全局环境变量，动态代码，银行安全控件，然而一些自动化软件和仿制浏览器依旧可以搞定

3.其他诸如cookie 、ip 这些也是能通过各种各样的办法解决的

4.从这次解决的问题的过程中，发现一个可能会更加有难度的思路：从网络请求入手，其实爬虫的本质就是模仿请求，打到获取数据的目的，与其重点放在识别爬虫的请求，不如增加返回数据的可识别难度。

emmm感觉有点生硬略过略过。主要是记录下又攻克一个难关（并非用博文里说的办法）

关于爬虫风控的记录

猜你喜欢