woff 这种字体文件怎么抓取数据

其他 2018-07-08 16:31:00 阅读次数: 0

这是在请求起点中文网的小说字数时遇到的问题.

pip install fontTools 是用于将woff这种字体文件转化成XML文件

在python的命令窗口运行这句话.

================================================================

首先要先查看这个woff文件内容是什么

需要先下一个工具来查看即下图这个软件(需破解)

安装下图这个,先装英文原版,再打开汉化补丁中的另一个是中文本的,英文和中文想用哪个随自己喜好.

将字体文件的网址在浏览器上下载下来, 在这个文件中打开

===================================================================================================

在python中:

1.每次都刷新字体font-face文件：如https://qidian.gtimg.com/qd_anti_spider/XnXLddDL.woff，

所以每次请求，都需要取截取这个字体文件的url地址(url一直在变)。

2.请求这个地址，将这个字体文件下载到本地，然后将.woff文件转化成.xml文件。

3.去页面的源代码中提取字符串(十进制的编码):

𘜐𘜑𘜑𘜎𘜏𘜏

4.将100112/100113这些十进制编码的数据转化成十六进制的数据；

5.根据这个十六进制的数据从xml文件中找到对应的map对象，提取map的name属性，然后再根据name属性的值，从number_dict中提取对应的值。

from fontTools.ttLib import TTFont
# 这个是与上面的字体文件相对应的
number_dict = {
    "period": ".",
    "zero": "0",
    "one": "1",
    "two": "2",
    "three": "3",
    "four": "4",
    "five": "5",
    "six": "6",
    "seven": "7",
    "eight": "8",
    "nine": "9"
}
# 将 woff 转化为 xml
font_content = requests.get(font_url, headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'}).content

with open('qidian.woff', 'wb') as f:
    f.write(font_content)

font1 = TTFont('qidian.woff')
font1.saveXML('qidian.xml')

猜你喜欢

转载自blog.csdn.net/qq_42336573/article/details/80698580

woff 这种字体文件怎么抓取数据

关于字体加密的woff

WOFF字体的Mime类型？

Not Found woff 字体库

爬虫--简单woff文件的处理

CSS学习之使用WOFF字体

关于web中的字体, .woff, .eot, .svg

iis 自定义字体 woff

Web部署 svg/woff/woff2 字体文件404错误

woff等资源文件跨域问题

解决Web部署 svg/woff/woff2字体 404错误

解决IIS Web部署 svg/woff/woff2字体找不到问题

解决Web部署 svg/woff/woff2字体 404错误（转载）

解决Web部署 svg/woff/woff2字体 404

IIS无法加载字体文件(*.woff,*.svg)的解决办法

用python对字体文件格式进行转换（woff-xml）

vue打包后.woff字体文件路径问题处理

Vue2.0+webpack 引入字体文件（eot，ttf，woff）

解决加载有.woff页面时，报404错误，找不到.woff文件

ASP.NET MVC 项目设置，移除多余的响应头，woff,woff2 字体文件请求处理

Azure部署的应用程序访问页面页面时加载字体文件（.woff.woff2）出现 404 错误问题

解决IIS Web部署 svg/woff/woff2字体找不到问题(vue部署后找不到)

WOFF格式

修改TTF文件或者otf文件或者woff文件内的字体名称

教大家用python爬取猫眼数据，破解里面的字体woff最新

自定义web字体-通过@font-face在页面中嵌入 .woff格式字体的引用

破解大众点评网站静态字体加密(woff字体映射法)

Python反反爬系列(二)----破解某点评网站静态字体加密(woff字体映射法)

Bootstrap中glyphicons-halflings-regular.woff字体报404错notfound

vue 打包后，后缀名为.woff等字体问题不能用解决办法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)