对BeautifulSoup中的get_text()的建议
发布于 2021-01-29 15:21:53
我正在使用BeautifulSoup解析html页面中的某些内容。
我可以从html中提取所需的内容(即myclassspan
定义中包含的文本class
)。
result = mycontent.find(attrs={'class':'myclass'})
我得到这个结果:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>
如果我尝试使用以下方法提取文本:
result.get_text()
我得到:
Lorem ipsumdolor sit amet,consectetur...
如您所见,<br>
删除标签后,内容之间不再有空格,两个单词也被隐藏。
我该如何解决这个问题?
关注者
0
被浏览
46