字体、svg反爬虫汇总

在这里插入图片描述
这几天做了一个爬虫的项目,里面包含了:大众点评字体解密、大众点评svg解密、猫眼动态字体解密,微博评论,博主、粉丝详细数据,博主主页所有的发文内容等,下面详细的说明解决几种字体加密和微博爬虫的思路与做法。
1、大众点评字体解密
爬过大众点评的朋友们想必都知道大众点评的反爬虫手段是非常高的,它的评分、地址等店铺信息大部分采用的字体加密的方式进行反爬虫,只需将对应的字体文件下载,进行字体匹配形成字典,再将请求返回的源码进行替换,形成正确字体,即网页中显示的信息。
2、大众点评svg解密
大众点评除了恶心的字体加密之外,它还有着svg的反爬虫手段,具体的解决方法就是将源代码中标签的位置与svg文件中的位置寻找规律,做进一步的匹配替换
3、猫眼动态字体解密
猫眼的反爬虫手段也是通过字体加密的方法呈现,不过与其他字体加密方式相比较,最大的不同是猫眼字体是动态的,它的更新速度很快,因此不可能做到一次匹配,一直使用,所以通过ocr的方法,自动将加密的字体与网页中的真实数据进行匹配,无需自己动手,就是自动匹配的时长略微长了几秒钟,不过也是一种很方便快捷的方法。
4、微博爬虫
一般选择微博的移动端进行爬取,网页端的爬取难度较高,不过无非也是抓包难度会高一些。移动端微博抓取,首先打开console,然后刷新网页进行抓包,对抓取的网址进行分析,发现只要更改网址末尾的页码,即可获取数据,难度不高,不做具体描述。

当然,上述只是自己的拙见,如果有大神有更好的方法可以在下方评论区进行探讨,感谢!

猜你喜欢

转载自blog.csdn.net/shadowtalon/article/details/107772807