在Python中将XML / HTML实体转换为Unicode字符串

发布于 2021-02-02 23:17:33

我正在做一些Web抓取,并且站点经常使用HTML实体来表示非ascii字符。Python是否有一个实用程序可以接受带有HTML实体的字符串并返回unicode类型?

例如:

我回来了:

ǎ

代表带有音调标记的“ǎ”。以二进制形式表示为16位01ce。我想将html实体转换为值 u'\u01ce'

关注者
0
被浏览
87
1 个回答
  • 面试哥
    面试哥 2021-02-02
    为面试而生,有面试问题,就找面试哥。

    标准库自己的HTMLParser具有未记录的函数unescape(),它完全按照你的想法执行操作:

    import HTMLParser
    h = HTMLParser.HTMLParser()
    h.unescape('© 2010') # u'\xa9 2010'
    h.unescape('© 2010') # u'\xa9 2010'
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看