Python

有效计数唯一元素的数量-NumPy / Python

发布于 2021-01-29 16:14:33

运行np.unique（）时，它首先对数组进行展平，对数组进行排序，然后找到唯一值。当我有形状为（10，3000，3000）的数组时，大约需要一秒钟的时间来找到唯一性，但是由于我需要多次调用np.unique（），所以这很快就加起来了。由于我只关心数组中唯一数字的总数，因此排序似乎是在浪费时间。

除了np.unique（）之外，是否有更快的方法来查找大型数组中唯一值的总数？

关注者

被浏览

143

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。

这是一种适用于dtypenp.uint8比快的数组的方法np.unique。

首先，创建一个要使用的数组：

In [128]: a = np.random.randint(1, 128, size=(10, 3000, 3000)).astype(np.uint8)

为了以后进行比较，请使用查找唯一值np.unique：

In [129]: u = np.unique(a)

这是更快的方法；v将包含结果：

In [130]: q = np.zeros(256, dtype=int)

In [131]: q[a.ravel()] = 1

In [132]: v = np.nonzero(q)[0]

验证我们得到了相同的结果：

In [133]: np.array_equal(u, v)
Out[133]: True

定时：

In [134]: %timeit u = np.unique(a)
2.86 s ± 9.02 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [135]: %timeit q = np.zeros(256, dtype=int); q[a.ravel()] = 1; v = np.nonzero(q)
300 ms ± 5.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

因此，对于2.86秒np.unique()，对于替代方法0.3秒。

知识点

Python

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦

去下载看看