从页面上的相对URL重构绝对URL

发布于 2021-01-29 15:19:39

给定一个页面的绝对URL以及在该页面中找到的相对链接,是否有一种方法可以 a) 最终重构或 b) 尽力而为重构相对链接的绝对URL?

就我而言,我正在使用漂亮的汤从给定的URL中读取html文件,剥离所有img标签源,并尝试构建页面图像的绝对URL列表。

到目前为止,我的Python函数如下所示:

function get_image_url(page_url,image_src):

    from urlparse import urlparse
    # parsed = urlparse('http://user:pass@NetLoc:80/path;parameters?query=argument#fragment')
    parsed = urlparse(page_url)
    url_base = parsed.netloc
    url_path = parsed.path

    if src.find('http') == 0:
        # It's an absolute URL, do nothing.
        pass
    elif src.find('/') == 0:
        # If it's a root URL, append it to the base URL:
        src = 'http://' + url_base + src
    else:
        # If it's a relative URL, ?

注意: 不需要Python答案,只需逻辑即可。

关注者
0
被浏览
46
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    非常简单:

    >>> from urlparse import urljoin
    >>> urljoin('http://mysite.com/foo/bar/x.html', '../../images/img.png')
    'http://mysite.com/images/img.png'
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看