dmoz_reader.py 文件源码

python

阅读 20 收藏 0 点赞 0 评论 0

项目：hh-page-classifier 作者: TeamHG-Memex 项目源码文件源码

def dmoz_reader(filename):
    doc = pulldom.parse(filename)
    for event, node in doc:
        if event == pulldom.START_ELEMENT and node.tagName == 'ExternalPage':
            doc.expandNode(node)
            url = node.attributes['about'].value
            topic_node = node.getElementsByTagName('topic')[0]
            topics = topic_node.childNodes[0].data
            yield url, topics

评论列表正在加载评论...

文章目录

提
问题

写
面经

写
文章

微信
公众号

扫码关注公众号