hn_refactored.py 文件源码

python
阅读 20 收藏 0 点赞 0 评论 0

项目:web-scraping-101 作者: turtleDev 项目源码 文件源码
def parse(self, response, crawler):

        document = lxml.etree.HTML(response.text)
        for title in document.cssselect('tr.athing a.storylink'):
            yield title.text

        urlinfo = urllib.parse.urlparse(response.url)
        base_url = urlinfo.scheme + '://' + urlinfo.netloc

        try:
            href = document.cssselect('a.morelink')[0].get('href')
        except:
            return

        next_url = urllib.parse.urljoin(base_url, href)

        crawler.schedule_request(next_url)
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号