Python

切片集合的pythononic方法是什么？

发布于 2021-01-29 16:15:10

我有一些数据列表，例如

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]

我想获得固定长度的唯一值（我不在乎我会得到什么），我也希望它成为set对象。

我知道我能做到set的some_data，然后让它list，裁剪，然后让它set一次。

set(list(set(some_data))[:5])  # don't look so friendly

我知道我没有__getitem__一种方法set无法使整个切片成为可能，但是是否有机会使其看起来更好？

我完全理解这set是无序的。因此，最终确定哪些元素并不重要set。

可能的选择是使用：

dict与None值一起使用：

set(dict(map(lambda x: (x, None), some_data)).keys()[:2])  # not that great

关注者

被浏览

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。
集是可迭代的。如果您真的
不在乎从集合中选择了哪些项目，则可以使用它itertools.islice来获取将产生指定数量的项目的迭代器（以迭代顺序中的第一个为准）。将迭代器传递给set构造函数，您无需使用任何额外的列表即可获得子集：
```
import itertools

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]
big_set = set(some_data)
small_set = set(itertools.islice(big_set, 5))
```
尽管这是您所要求的，但我不确定您是否应该真正使用它。集可能会以非常确定的顺序进行迭代，因此，如果您的数据经常包含许多相似的值，那么每次执行此操作时，您最终都可能会选择一个非常相似的子集。当数据由整数组成（如示例中）时，这特别糟糕，整数会散列在一起。连续整数在迭代集合时会经常出现。与上面的代码，只32是顺序在出big_set（使用Python
3.5），所以small_set是{32, 1, 2, 3, 4}。如果0将数据添加到数据中，{0, 1, 2, 3, 4}即使数据集变得巨大，您几乎总是会得到结果，因为这些值将始终填满集合哈希表中的前五个位。

为了避免这种确定性采样，可以random.sample
按照jprockbelly的建议使用。

知识点

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦