最近利用js2xml来获取<script>数据,代码如下:
src_text = js2xml.parse(src, debug=False)
src_tree = js2xml.pretty_print(src_text)
我们就把数据转化成了xml标签树,(注意转化后的src_tree是str类型,后面的unescape()好像只对str有用)但是我发现转化后的'<'都成了'<' HTML的转义字符,所以把转义字符转化过去,利用了HTMLParse库,但是python3已经将原来的HTMLParse模块改成了 html.parse里的HTMLParse
另外如果还报错No module named 'markupbase',可以将HTMLParse.py文件里所有的markupbase改成_markupbase
下面就是处理HTML转义符的代码
from html.parser
txt =html.parser.HTMLParser.unescape('self','<')