dmoz_reader.py 文件源码

python
阅读 20 收藏 0 点赞 0 评论 0

项目:hh-page-classifier 作者: TeamHG-Memex 项目源码 文件源码
def dmoz_reader(filename):
    doc = pulldom.parse(filename)
    for event, node in doc:
        if event == pulldom.START_ELEMENT and node.tagName == 'ExternalPage':
            doc.expandNode(node)
            url = node.attributes['about'].value
            topic_node = node.getElementsByTagName('topic')[0]
            topics = topic_node.childNodes[0].data
            yield url, topics
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号