baozoumanhua.py 文件源码-python代码片段

baozoumanhua.py 文件源码

python

阅读 20 收藏 0 点赞 0 评论 0

项目：multimedia_crawler 作者: JFluo2011 项目源码文件源码

def parse_item(self, response):
        item = MultimediaCrawlerItem()
        item['host'] = 'baozoumanhua'
        item['media_type'] = 'video'
        item['stack'] = []
        item['download'] = 0
        item['extract'] = 0
        item['file_dir'] = os.path.join(settings['FILES_STORE'], item['media_type'], self.name)
        item['url'] = response.url
        item['info'] = {
            'link': item['url'],
            'title': (response.xpath(r'//h1[@class="v-title"]/text()').extract_first(default='').strip()),
            'intro': '',
            'author': 'baozoumanhua',
        }

        player = self.__get_player(item['url'], response)
        if player is None:
            self.logger.error('url: {}, error: does not match any player'.format(item['url']))
            return
        yield scrapy.FormRequest(url=player.url, method=player.method, meta={'item': item},
                                 formdata=player.params, callback=player.parse_video)