- 做基数统计的算法 - 数据集中不重复的元素就是这个数据集的基数 - 大规模的防止作弊,需要去重统计,独立访客,用户搜索网站关键词的数量,统计用户每天搜索不同词条的个数 - 去重复统计功能的基数估计算法 # 优点 - 在输入元素数量或体积过大时,计算基数所需的空间是固定的、并且是非常小的 - 每个HyperLogLog只需花费12K内存就可以计算接近2^64个不同元素的基数 # 缺点 - 标准误差在0.81% # 命令 - 将任意数量的元素添加到指定的HyperLogLog里面 ``` pfadd key value ``` - 返回单个键的近似基数,键不存在则返回0,作用于多个键时,会返回多个键的并集的近似基数 ``` pfcount key key ``` - 将多个HyperLogLog合并为一个HyperLogLog合并后的HyperLogLog的基数接近于所有输入HyperLogLog的可见集合的并集 ``` pfmerge destkey key key ``` - 统计长度 ``` pfcount key ```