对BeautifulSoup中的get_text()的建议

发布于 2021-01-29 15:21:53

我正在使用BeautifulSoup解析html页面中的某些内容。

我可以从html中提取所需的内容(即myclassspan定义中包含的文本class)。

result = mycontent.find(attrs={'class':'myclass'})

我得到这个结果:

<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

如果我尝试使用以下方法提取文本:

result.get_text()

我得到:

Lorem ipsumdolor sit amet,consectetur...

如您所见,<br>删除标签后,内容之间不再有空格,两个单词也被隐藏。

我该如何解决这个问题?

关注者
0
被浏览
46
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    如果您正在使用bs4,则可以使用strings

    " ".join(result.strings)
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看