Python爬虫-破解天眼查字体库加密-解决封IP-天眼查分布式爬虫

Python爬虫-破解天眼查字体库加密-解决封IP-天眼查分布式爬虫

    2017年自己用python写代码开发了一套天眼查分布式爬虫系统,实现了把整个天眼查所有的数据分布式多线程方式快速爬下来,并且建立了mongdb数据库对这些非结构化的数据进行存储,因为天眼查整个网站数据量很大,爬下来的数据需要进行管理,于是自己又写了一套 大数据应用管理系统,对这些数据进行管理

需要深度爬虫技术和大数据交流朋友加我qq2779571288)。

一、破解天眼查封IP问题:

爬取天眼查需要解决的第一个技术问题就是封IP问题,因为天眼查的技术研发部做了反爬技术防火墙,只要发现你频繁的访问他们的网站就会立刻锁定您IP,然后把您的IP列入黑名单,导致您爬不到数据。所以需要把天眼查接近2个亿的数据爬下来需要切换几十亿IP,消耗大量的IP,解决这个问题很简单,我当时自己建立了自己的高匿名的代理池,这样每一次http请求爬数据的时候都随机切换不同的IP,解决了这个封IP问题,另外目前网上那种IP是不能用的,因为目前网上那种IP都被用过了,几乎爬不了。

一、破解天眼查“字体库”加密问题:

直到昨天也就是2018424日,用我这套“天眼查分布式爬虫系统”的朋友告诉我,天眼查自己研发了一套自己的字体库,来解决对抗我们爬虫,防止别人爬去他们技术,这个是最新的一个反爬技术,这样一来导致很多做天眼查爬虫技术的朋友面临了绝境。我今天对天眼查的字体库的算法进行了研究,发现“公司的经营范围内容被字体库加密”这套字体库的技术的作用就是,浏览器打开看到的公司经营范围内容被加密解析出来的,我们爬虫采集到的内容是被这个字体库加密过了,导致采集到内容和浏览器眼睛看到的内容不一致,达到混淆爬取不到真实内容的目的。不过幸运的是 通过分析字体库算法和规则终于破解了,这套字体库的加密规则,解决了这个问题。

需要深度爬虫技术和大数据交流朋友加我qq2779571288

猜你喜欢

转载自blog.csdn.net/liujainq/article/details/80086998