如何解析包含隐藏标签的HTML页面

发布于 2021-01-29 15:02:52

我正在尝试解析某些网页以供将来使用。为了解析网页,我使用了urllib,lxml,BeautifulSoup,HTMLParser等不同的模块来实现我的目标。

在解析网页时,我没有遇到任何问题,直到遇到隐藏标签为止。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时,我能够看到<embed>部分代码:

 <embed type="..." src="..." ID="..." >

并且只需手动复制/粘贴即可。

我需要ID从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分?有什么办法解析这些隐藏的部分吗?

我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分,但我想事实并非如此。

关注者
0
被浏览
69
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    此“隐藏”代码可能是由JavaScript在运行时生成的。

    与尝试让某些内容运行脚本然后解析最终的DOM树相比,发现JavaScript的工作方式以及从何处获取数据(URL)的运气更好。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看