lianjiaspider.py 文件源码-python代码片段

lianjiaspider.py 文件源码

python

阅读 18 收藏 0 点赞 0 评论 0

项目：spider_scrapy_lianjia 作者: stamhe 项目源码文件源码

def parse(self, response):
        sel = Selector(response)
        xiaoqu_uri = sel.xpath('//span[@class="title"]/a/@href').extract()[0]
        xiaoqu_list = xiaoqu_uri.split('/')
        xiaoqu_id   = xiaoqu_list[2]
        items = []
        house_lists = sel.xpath('//div[@class="list-wrap"]/ul[@class="house-lst"]/li')
        for house in house_lists:
            item = SpiderScrapyLianjiaItem()
            item['xiaoqu_id']   = xiaoqu_id
            item['house_id']    = house.xpath('@data-id').extract()[0]
            item['title']       = house.xpath('div[@class="info-panel"]/h2/a/text()').extract()[0]
            item['price']       = house.xpath('div[@class="info-panel"]/div[@class="col-3"]/div[@class="price"]/span/text()').extract()[0]
            item['view_count']  = house.xpath('div[@class="info-panel"]/div[@class="col-2"]/div[@class="square"]/div/span/text()').extract()[0]
            #item['size']        = house.xpath('div[@class="info-panel"]/div[@class="col-1"]/div[@class="where"]/span/text()').extract()
            items.append(item)

        return items