数据库 Elasticsearch

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

发布于 2020-03-07 11:19:03

关注者

被浏览

3448

1 个回答

面试哥 2020-03-07

为面试而生，有面试问题，就找面试哥。

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数，即该字段的 distinct 或者unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算，然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。
其特点是：可配置的精度，用来控制内存的使用（更精确＝更多内存）；
小的数据集精度是非常高的；我们可以通过配置参数，来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值，内存使用量只与你配置的精确度相关。

知识点

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦