process_crawler.py 文件源码

python
阅读 27 收藏 0 点赞 0 评论 0

项目:WebScraping 作者: liinnux 项目源码 文件源码
def normalize(seed_url, link):
    """Normalize this URL by removing hash and adding domain
    """
    link, _ = urlparse.urldefrag(link) # remove hash to avoid duplicates
    return urlparse.urljoin(seed_url, link)
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号