douban_new_movie_spider.py 文件源码-python代码片段

douban_new_movie_spider.py 文件源码

python

阅读 22 收藏 0 点赞 0 评论 0

def parse(self, response):
        sel = Selector(response)
        movie_name = sel.xpath("//div[@class='pl2']/a/text()[1]").extract()
        movie_url = sel.xpath("//div[@class='pl2']/a/@href").extract()
        movie_star = sel.xpath("//div[@class='pl2']/div/span[@class='rating_nums']/text()").extract()

        # item = DoubanNewMovieItem()
        item = {}
        # item['movie_name'] = [n.encode('utf-8') for n in movie_name]
        item['movie_name'] = movie_name
        item['movie_star'] = [n for n in movie_star]
        item['movie_url'] = [n for n in movie_url]

        yield item

        print(item['movie_name'], item['movie_star'], item['movie_url'])