python实战项目48:实某僧字体反爬
一、字体加密原理
字体加密就是利用前端技术干扰,但是页面可以正常展示数据,而使用爬虫获取后无法提取正常的数据。
在css3之前,web开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face
为网页指定字体,开发者可将心仪的字体文件放在web服务器上,并在css样式中使用它。用户使用浏览器访问web应用时,对应的字体会被浏览器下载到用户的计算机上。同时需要注意的是,使用Selenium自动化也无法获取正常的数据。
二、寻找并查看字体文件
以实某僧网站为例:
在开发者工具的元素界面搜索关键字“@font-face”,如下图所示:
图中url的内容加上网站前缀“https://www.shixiseng.com/”,在地址栏中输入之后可以下载字体文件。下载之后需要把文件的后缀名改为.woff,之后便可以在字体查看网站“https://fo