使用Python从HTML文件中提取文本

发布于 2021-02-02 23:20:12

我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中,我希望得到的输出基本上相同。

我想要比使用正则表达式更强大的功能,而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤,但是使用它时遇到了一些问题。例如,它拾取了不需要的文本,例如JavaScript源。此外,它没有解释HTML实体。例如,我希望' 在HTML源代码中转换为文本中的撇号,就像将浏览器内容粘贴到记事本中一样。

更新 html2text看起来很有希望。它正确处理HTML实体,并忽略JavaScript。但是,它不能完全产生纯文本;它产生markdown,然后必须将其转换为纯文本。它没有示例或文档,但是代码看起来很干净。

关注者
0
被浏览
138
1 个回答
  • 面试哥
    面试哥 2021-02-02
    为面试而生,有面试问题,就找面试哥。

    html2text是一个Python程序,在此方面做得很好。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看