Python爬虫编程12——字体反爬

编程语言 2023-04-07 01:15:59 阅读次数: 0

什么是字体反爬

就是网页的制作者，他在发布他网页数据的时候。将其中一部分的字体变成乱码。即使你把网页的数据爬取下来，你也获取不到真实数据的样貌。这样就达到了一个反爬虫的目的。

如何解决字体反爬

1.下载.ttf文件；

2.将.ttf文件转换成xml文件；

3.分析字体规律找到映射关系。

就是找到字体文件，发现替换关系，将爬取下来的数据替换的过程。

如何找到字体文件

1.定位到进行了字体反爬的位置，在对应的styles里面找到font-family；

2.复制font-family里面的值，去网页源码里面搜索；

3.在搜索结果的附近，找到 xxx.ttf 这样的url进行下载；

4.把下载好的 ttf文件用High-Logic FontCreator打开；

5.用python查看ttf文件

from fontTools.ttLib import TTFont
from lxml import etree
from tools import get_js
import requests

sz = TTFont('szec.ttf')
# 加载字体文件 保存成xml格式的文件
# 我们发现通过字体软件打开的里面 能够看到name和code-points属性
# 通过python保存的xml文件中的cmap标签中 能看到name和code属性
# 两者之间包含某种对应关系
# sz.saveXML('sz.xml')


# print(sz.getBestCmap())

6.找到所对应的关系，将爬取的数据替换。

7.当需要识别图片的时候，对于简单的图片可以使用tesseract，复杂的使用打码平台。

练习网站：

闪职——首页 (spbeen.com)

猜你喜欢

转载自blog.csdn.net/qq_52914337/article/details/123844911

Python爬虫编程12——字体反爬

Python爬虫---猫眼字体反爬

python爬虫之字体反爬

python爬虫字体反爬实习僧

Python爬虫 :字体加密和字体反爬

Python爬虫编程11——JS反爬

python爬虫入门 ✦ 大众点评网字体反爬

Python爬虫进阶 | 某音字体反爬分析

Python爬虫：字体反爬处理（猫眼+汽车之家）-2018.10

python爬虫--爬虫与反爬

【2020-11-16】Python反爬虫之字体反爬

爬虫之路: 字体文件反爬一

Python：爬虫实例2：爬取猫眼电影——破解字体反爬

Python爬虫实例：爬取猫眼电影——破解字体反爬

【python实现网络爬虫（4）】实习僧网站信息爬取（字体反爬虫破解）

爬虫之路: 字体文件反爬二(动态字体文件)

Python爬虫之路-反爬与反反爬

python爬虫——爬虫伪装和反“反爬”

python爬虫精选12集（验证码反爬技术）

Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三

爬虫之字体反爬（一）起点网

爬虫之字体反爬（二）猫眼票房

爬虫之字体反爬（三）汽车之家

十六：爬虫-验证码与字体反爬

Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇

Python爬取猫眼电影：破解字体反爬

Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二

Python-爬虫代理--proxy（反爬）

python爬虫与反爬、加密算法

python爬虫--cookie反爬处理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)