Python

将unicode元素读入numpy数组

发布于 2021-01-29 18:01:51

考虑一个名为“ new.txt”的文本文件，其中包含以下元素：

μm
∂r
∆λ

在Python 2.7中，我可以通过键入以下内容来读取文件：

>>> import codecs
>>> f = codecs.open('new.txt', encoding='utf-8')
>>> lines = [line.strip() for line in f2.readlines()]
>>> lines
[u'\u03bcm', u'\u2202r', u'\u2206\u03bb']
>>> print lines[0]
μm

到现在为止还挺好。我可以通过以下方法轻松地将此列表转换为numpy数组：

>>> import numpy as np
>>> arr = np.array(lines)
>>> arr
array([u'\u03bcm', u'\u2202r', u'\u2206\u03bb'], 
      dtype='<U2')

问题是，我无法通过numpy的loadtxt函数直接读取此文件：

>>> np.loadtxt('new.txt', dtype=np.unicode_)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib64/python2.7/site-packages/numpy/lib/npyio.py", line 805, in loadtxt
    X = np.array(X, dtype)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 0: ordinal not in range(128)

直接将此文件直接读入numpy的正确方法是什么？

谢谢。

关注者

被浏览

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。
在内存中，Unicode字符串表示为UCS-2或UCS-4，具体取决于您的Python解释器的编译方式。您的文件采用UTF-8编码，因此您需要先对其进行编码，然后才能将其映射到NumPy数组。
loadtxt()不能为您完成重新编码-毕竟NumPy主要针对数字数组。

假设每行具有相同数量的字符，则还可以使用更有效的变体
```
s = codecs.open("new.txt", encoding="utf-8").read()
arr = numpy.frombuffer(s, dtype="<U3")
```
这将在字符串中包含换行符。要不包括它们，请使用
```
arr = numpy.frombuffer(s.replace("\n", ""), dtype="<U2")
```
编辑：如果文件的行长不同，并且您希望避免使用中间列表，则可以使用
```
arr = numpy.fromiter(codecs.open("new.txt", encoding="utf-8"), dtype="<U2")
```
我不确定这是否会在内部创建一些临时列表。

知识点

Python

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦

去下载看看

将unicode元素读入​​numpy数组

将unicode元素读入numpy数组