切片集合的pythononic方法是什么?
我有一些数据列表,例如
some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]
我想获得固定长度的唯一值(我不在乎我会得到什么),我也希望它成为set
对象。
我知道我能做到set
的some_data
,然后让它list
,裁剪,然后让它set
一次。
set(list(set(some_data))[:5]) # don't look so friendly
我知道我没有__getitem__
一种方法set
无法使整个切片成为可能,但是是否有机会使其看起来更好?
我完全理解这set
是无序的。因此,最终确定哪些元素并不重要set
。
可能的选择是使用:
- 有序集
dict
与None
值一起使用:set(dict(map(lambda x: (x, None), some_data)).keys()[:2]) # not that great
-
集是可迭代的。如果您 真的
不在乎从集合中选择了哪些项目,则可以使用它itertools.islice
来获取将产生指定数量的项目的迭代器(以迭代顺序中的第一个为准)。将迭代器传递给set
构造函数,您无需使用任何额外的列表即可获得子集:import itertools some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2] big_set = set(some_data) small_set = set(itertools.islice(big_set, 5))
尽管这是您所要求的,但我不确定您是否应该真正使用它。集可能会以非常确定的顺序进行迭代,因此,如果您的数据经常包含许多相似的值,那么每次执行此操作时,您最终都可能会选择一个非常相似的子集。当数据由整数组成(如示例中)时,这特别糟糕,整数会散列在一起。连续整数在迭代集合时会经常出现。与上面的代码,只
32
是顺序在出big_set
(使用Python
3.5),所以small_set
是{32, 1, 2, 3, 4}
。如果0
将数据添加到数据中,{0, 1, 2, 3, 4}
即使数据集变得巨大,您几乎总是会得到结果,因为这些值将始终填满集合哈希表中的前五个位。为了避免这种确定性采样,可以
random.sample
按照jprockbelly的建议使用。