python对含html转义字符编码(四)进行转换 - 代码天地

python对含html转义字符编码(四)进行转换

其他 2019-02-28 22:23:34 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/diyiday/article/details/86497961

在抓取下来的网页源码显示的是如下的内容,而不是可读性的汉字

（当然，如果是在Web页面上展示，则实体会自动被浏览器转为原字符，正常显示）
经查资料后得知, 在网页中以四开头的是HTML实体,具体什么是HTML实体,

请百度:http://baike.baidu.com/view/4757776.htm

如何把汉字转换成HTML实体呢？

其实很简单，汉字的HTML实体由三部分组成，”&#+ASCII+;“ 即可。

Python中提供了一个模块：HTMLParser，里面有很多好用的方法，

我们可以使用：dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性，其中有一个方法：unescape()，

再使用：help(HTMLParser.HTMLParser.unescape)，可以看到该方法的说明信息，但是几乎没什么用。其实该方法就是将HTML实体（带有&#符号打头的）进行解码，转换为原有字符。下面是简单实例：

<span style='font-size:7.0pt;mso-ascii-font-family:Arial;mso-hansi-font-family:Arial;
mso-bidi-font-family:Arial'>&#19978;&#28023;<spanclass=GramE>&#37329;&#34701;</span>&#26381;&#21153;&#26377;&#38480;&#20844;&#21496;</span><span>

以上的html代码含有unicode编码字符，使用HTMLParser可以轻松处理

import HTMLParser
def decodeHtml(input):
    h = HTMLParser.HTMLParser()
    s = h.unescape(input)
    return s

c = (含html转义字符的内容, 如需测试请自行粘贴)

print decodeHtml(c)

转换后

span style='font-size:7.0pt;mso-ascii-font-family:Arial;mso-hansi-font-family:Arial;mso-bidi-font-family:Arial'>上海<span class=GramE>金融</span>服务有限公司</span><span>

猜你喜欢

转载自blog.csdn.net/diyiday/article/details/86497961

python对含html转义字符编码(四)进行转换

delphi HTML转义字符编码转换

JS转换HTML转义符，编码及解码

HTML转义字符&url编码表

python处理HTML转义字符

Python-HTML转义字符

Python 字符编码转换

Python字符编码与转换

Python字符与编码的转换

python转换已转义的字符串

python不对字符串进行转义

HTML特殊转义字符编码对照表

初识python：字符编码转换

python-字符编码的转换

python基础字符编码转换

Java语言程序设计（四）类型转换及转义字符

HTML多种转义字符

HTML转义字符大全

html 特殊转义字符

html转义字符图

html特殊字符转义

HTML转义字符

HTML字符转义

HTML 转义字符

HTML常用转义字符

HTML特殊转义字符

HTML中的转义字符

前端-html字符转义

对字符进行转义

python爬取html，反转义，双斜杠(\\)转换成单斜杠(\)字符被json正常解析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)