utils.py 文件源码

python
阅读 26 收藏 0 点赞 0 评论 0

项目:discover-books 作者: shispt 项目源码 文件源码
def _parse_book_info(html):
    """???????????????????????

    :param html(string): ?????????html
    """
    end_flag = 'END_FLAG'
    html = html.replace('<br>', end_flag)
    html = html.replace('<br/>', end_flag)

    doc = lxml.html.fromstring(html)
    text = doc.text_content()
    pattern = r'{}[:?](.*?){}'
    result = dict()
    for key, column in [
            ('author', '??'),
            ('press', '???'),
            ('publish_date', '???'),
            ('price', '??')]:
        result[key] = re.search(pattern.format(column, end_flag),
                                text,
                                re.I | re.DOTALL).group(1).strip()
    return result
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号