如何解析包含隐藏标签的HTML页面
我正在尝试解析某些网页以供将来使用。为了解析网页,我使用了urllib,lxml,BeautifulSoup,HTMLParser等不同的模块来实现我的目标。
在解析网页时,我没有遇到任何问题,直到遇到隐藏标签为止。
当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时,我能够看到<embed>
部分代码:
<embed type="..." src="..." ID="..." >
并且只需手动复制/粘贴即可。
我需要ID
从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分?有什么办法解析这些隐藏的部分吗?
我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分,但我想事实并非如此。