有效计数唯一元素的数量-NumPy / Python
运行np.unique()时,它首先对数组进行展平,对数组进行排序,然后找到唯一值。当我有形状为(10,3000,3000)的数组时,大约需要一秒钟的时间来找到唯一性,但是由于我需要多次调用np.unique(),所以这很快就加起来了。由于我只关心数组中唯一数字的总数,因此排序似乎是在浪费时间。
除了np.unique()之外,是否有更快的方法来查找大型数组中唯一值的总数?
-
这是一种适用于dtype
np.uint8
比快的数组的方法np.unique
。首先,创建一个要使用的数组:
In [128]: a = np.random.randint(1, 128, size=(10, 3000, 3000)).astype(np.uint8)
为了以后进行比较,请使用查找唯一值
np.unique
:In [129]: u = np.unique(a)
这是更快的方法;
v
将包含结果:In [130]: q = np.zeros(256, dtype=int) In [131]: q[a.ravel()] = 1 In [132]: v = np.nonzero(q)[0]
验证我们得到了相同的结果:
In [133]: np.array_equal(u, v) Out[133]: True
定时:
In [134]: %timeit u = np.unique(a) 2.86 s ± 9.02 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) In [135]: %timeit q = np.zeros(256, dtype=int); q[a.ravel()] = 1; v = np.nonzero(q) 300 ms ± 5.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
因此,对于2.86秒
np.unique()
,对于替代方法0.3秒。