我可以在python 2.6.5中为urllib.quote和urllib.unquote使用可用于Unicode的替代方法吗?
Pythonurllib.quote
和urllib.unquote
不能在Python 2.6.5中正确处理Unicode。这是发生了什么:
In [5]: print urllib.unquote(urllib.quote(u'Cataño'))
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
/home/kkinder/<ipython console> in <module>()
/usr/lib/python2.6/urllib.pyc in quote(s, safe)
1222 safe_map[c] = (c in safe) and c or ('%%%02X' % i)
1223 _safemaps[cachekey] = safe_map
-> 1224 res = map(safe_map.__getitem__, s)
1225 return ''.join(res)
1226
KeyError: u'\xc3'
将值编码为UTF8也不起作用:
In [6]: print urllib.unquote(urllib.quote(u'Cataño'.encode('utf8')))
Cataño
它被认为是错误,并且有修复程序,但不适用于我的Python版本。
我想要的是类似于urllib.quote / urllib.unquote的东西,但是可以正确处理unicode变量,因此该代码可以正常工作:
decode_url(encode_url(u'Cataño')) == u'Cataño'
有什么建议吗?
-
Python的urllib.quote和urllib.unquote无法正确处理Unicode
urllib
根本不处理Unicode。根据定义,URL不包含非ASCII字符。在处理时,urllib
应仅使用字节字符串。如果希望这些字符代表Unicode字符,则必须手动对其进行编码和解码。IRI可以包含非ASCII字符,将它们编码为UTF-8序列,但是Python目前没有
irilib
。将值编码为UTF8也不起作用:
In [6]: print urllib.unquote(urllib.quote(u'Cataño'.encode('utf8'))) Cataño
嗯,好了,现在您要在控制台中输入Unicode,然后
print
对控制台执行-
Unicode。通常这是不可靠的,尤其是在Windows中以及使用IPython控制台的情况下。使用反斜杠序列将其键入很长的距离,您可以更容易地看到该
urllib
位确实起作用:>>> u'Cata\u00F1o'.encode('utf-8') 'Cata\xC3\xB1o' >>> urllib.quote(_) 'Cata%C3%B1o' >>> urllib.unquote(_) 'Cata\xC3\xB1o' >>> _.decode('utf-8') u'Cata\xF1o'