Python-在Python中通过“ElementTree”解析带有名称空间的XML
我有以下要使用Python解析的XML ElementTree
:
<rdf:RDF xml:base="http://dbpedia.org/ontology/"
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:owl="http://www.w3.org/2002/07/owl#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns="http://dbpedia.org/ontology/">
<owl:Class rdf:about="http://dbpedia.org/ontology/BasketballLeague">
<rdfs:label xml:lang="en">basketball league</rdfs:label>
<rdfs:comment xml:lang="en">
a group of sports teams that compete against each other
in Basketball
</rdfs:comment>
</owl:Class>
</rdf:RDF>
我想找到所有owl:Class
标签,然后提取其中所有rdfs:label
实例的值。我正在使用以下代码:
tree = ET.parse("filename")
root = tree.getroot()
root.findall('owl:Class')
由于命名空间的原因,出现以下错误。
SyntaxError: prefix 'owl' not found in prefix map
请让我知道如何更改代码以查找所有owl:Class
标签。
-
ElementTree对名称空间不太聪明。你需要给的.find(),findall()和iterfind()方法的明确的命名空间字典。这没有很好的记录:
namespaces = {'owl': 'http://www.w3.org/2002/07/owl#'} # add more as needed root.findall('owl:Class', namespaces)
前缀仅在
namespaces
你传入的参数中查找。这意味着你可以使用任何喜欢的名称空间前缀;API会分开owl:一部分,在namespaces
字典中查找相应的名称空间URL ,然后更改搜索以查找XPath表达式{http://www.w3.org/2002/07/owl}Class
。当然,你也可以自己使用相同的语法:root.findall('{http://www.w3.org/2002/07/owl#}Class')
如果可以切换到lxml库,那就更好了;该库支持相同的
ElementTree API
,但会在.nsmap
元素的属性中为你收集名称空间。