python第三方库:使用html2text把html转换为markdown格式

在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。

html2text的原理是使用HTMLParser 对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。

html2text 安装

html2text 的地址在:

http://www.aaronsw.com/2002/html2text/

它是一个网页格式工具,能够在线把网站转换为markdown的格式,下载里面的html2text.py,放到自己的工程里。

github上的地址在:

https://github.com/aaronsw/html2text

html2text 使用

用起来也比起其他的库会来的简单点:

import html2text
article_content = ""
html2text.html2text(article_content)

有的时候html2text 并不能很好的理解我们需要的markdown,好在html2text.py并不是非常的复杂,我们可以在这个源码的基础上在进行相应的修改。

猜你喜欢

转载自blog.csdn.net/weixin_40425640/article/details/124074494#comments_28535927