Python

如何解析包含隐藏标签的HTML页面

发布于 2021-01-29 15:02:52

我正在尝试解析某些网页以供将来使用。为了解析网页，我使用了urllib，lxml，BeautifulSoup，HTMLParser等不同的模块来实现我的目标。

在解析网页时，我没有遇到任何问题，直到遇到隐藏标签为止。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时，我能够看到<embed>部分代码：

 <embed type="..." src="..." ID="..." >

并且只需手动复制/粘贴即可。

我需要ID从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分？有什么办法解析这些隐藏的部分吗？

我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分，但我想事实并非如此。

关注者

被浏览

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。

此“隐藏”代码可能是由JavaScript在运行时生成的。

与尝试让某些内容运行脚本然后解析最终的DOM树相比，发现JavaScript的工作方式以及从何处获取数据（URL）的运气更好。

知识点

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦