python处理HTML转义字符

最近利用js2xml来获取<script>数据,代码如下:

src_text = js2xml.parse(src, debug=False)
src_tree = js2xml.pretty_print(src_text)

我们就把数据转化成了xml标签树,(注意转化后的src_tree是str类型,后面的unescape()好像只对str有用)但是我发现转化后的'<'都成了'&lt' HTML的转义字符,所以把转义字符转化过去,利用了HTMLParse库,但是python3已经将原来的HTMLParse模块改成了 html.parse里的HTMLParse

另外如果还报错No module named 'markupbase',可以将HTMLParse.py文件里所有的markupbase改成_markupbase

下面就是处理HTML转义符的代码

from html.parser 
txt =html.parser.HTMLParser.unescape('self','&lt;')

猜你喜欢

转载自blog.csdn.net/qq_37702890/article/details/81152826