python类CrawlSpider()的实例源码

haofl_spider.py 文件源码项目：Spiders 作者: ychenracing 项目源码文件源码阅读 19 收藏 0 点赞 0 评论 0

def parse_start_url(self, response):
        """CrawlSpider????start_url??Request?????parse_start_url??"""
        li_list = response.xpath('//*[@id="post_container"]/li')
        for li_div in li_list:
            link = li_div.xpath('.//div[@class="thumbnail"]/a/@href').extract_first()
            yield scrapy.Request(link, callback=self.parse_detail_url)

        next_page = response.xpath('//div[@class="pagination"]/a[@class="next"]/@href').extract_first()
        if next_page:
            yield scrapy.Request(next_page, callback=self.parse_start_url)

提
问题

写
面经

写
文章

微信
公众号

扫码关注公众号