def parse_one_page(html):
pattern = re.compile(
'<li.*?blue-link".*?>(.*?)</a>.*?title".*?href="(.*?)">(.*?)</a>.*?abstract">(.*?)</p>.*?ic-list-read">.*?'
+'</i>(.*?)</a>.*?ic-list-comments.*?</i>(.*?)</a>.*?ic-list-like.*?</i>(.*?)</span>.*?ic-list-money.*?</i>(.*?)</span>.*?</li>',
re.S)
items=re.findall(pattern,html)
for item in items:
yield {
'author':item[0],
'link':"http://www.jianshu.com"+item[1],
'title':item[2],
'abstract':item[3].strip(),
'read-num':item[4].strip(),
'comment-num':item[5].strip(),
'like-num':item[6],
'money-num':item[7]
}
评论列表
文章目录