如何使用BeautifulSoup bs4获取HTML标签的内部文本值?

发布于 2021-01-29 14:11:03

使用BeautifulSoup bs4时,如何从HTML标签内部获取文本?当我运行此行时:

oname = soup.find("title")

我得到这样的title标签:

<title>page name</title>

现在我只想获取其中的内部文本page name,不带标签。怎么做?

关注者
0
被浏览
123
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    使用.text从标记中获取文本。

    oname = soup.find("title")
    oname.text
    

    要不就 soup.title.text

    In [4]: from bs4 import BeautifulSoup    
    In [5]: import  requests
    In [6]: r = requests.get("http://stackoverflow.com/questions/27934387/how-to-retrieve-information-inside-a-tag-with-python/27934403#27934387")    
    In [7]: BeautifulSoup(r.content).title.text
    Out[7]: u'html - How to Retrieve information inside a tag with python - Stack Overflow'
    

    要打开文件并使用文本作为名称,请像使用其他任何字符串一样简单地使用它:

    with open(oname.text, 'w') as f
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看