jianshuhot30.py 文件源码

python
阅读 19 收藏 0 点赞 0 评论 0

项目:spider 作者: aweng126 项目源码 文件源码
def parse_one_page(html):
    pattern = re.compile(
        '<li.*?blue-link".*?>(.*?)</a>.*?title".*?href="(.*?)">(.*?)</a>.*?abstract">(.*?)</p>.*?ic-list-read">.*?'
        +'</i>(.*?)</a>.*?ic-list-comments.*?</i>(.*?)</a>.*?ic-list-like.*?</i>(.*?)</span>.*?ic-list-money.*?</i>(.*?)</span>.*?</li>',
        re.S)
    items=re.findall(pattern,html)

    for item in items:
        yield {
            'author':item[0],
            'link':"http://www.jianshu.com"+item[1],
            'title':item[2],
            'abstract':item[3].strip(),
            'read-num':item[4].strip(),
            'comment-num':item[5].strip(),
            'like-num':item[6],
            'money-num':item[7]
        }
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号