ClickHouse性能黑科技之布隆索引

在处理海量数据的世界里，查询速度就是生命线。当你的数据表拥有数亿甚至数十亿行记录时，任何一次普通的 SELECT
查询都可能变成一场漫长的等待。我们都渴望能像在搜索引擎中一样，瞬间得到结果。那么，有没有什么“黑科技”能让 ClickHouse 在庞大的数据海洋中实现“大海捞针”般的精准与高效呢？

答案是肯定的。今天，我们就来揭秘 ClickHouse 中的一项查询加速利器——布隆过滤器（Bloom Filter）跳数索引。

什么是布隆过滤器？一个绝不放过“坏人”的聪明门卫

在解释 ClickHouse 的实现之前，我们先用一个生活化的例子来理解布隆过滤器是什么。

想象一下，你是一个顶级派对的门卫，手头有一份巨大的客人名单。你的任务是快速判断门口的每一个人是否在名单上。

传统方法（全表扫描）：每来一位客人，你都得从头到尾把长长的名单看一遍。如果派对有一亿个客人，这无疑是一场灾难。

普通索引：你把名单按字母顺序排好，这样就能很快地定位到客人的名字。这很高效，但维护这份精确的名单本身需要不小的成本。

布隆过滤器（我们的黑科技门卫）：你没有完整的名单，只有一个“魔法”小本本。这个本本的特点是：

如果本本告诉你“这个人绝对不在名单上”，那他 100% 真的不在。你可以立刻将他拒之门外，省时省力。

如果本本告诉你“这个人可能在名单上”，那他确实有可能在，但也可能是本本的误判（假阳性）。这时候，你才需要去核对更精确的原始名单。

这个“绝不漏报，但可能误报”的魔法本本，就是布隆过滤器。它用极小的空间，提供了一个极快的“排除法”筛查。

在 ClickHouse 中，数据被存储在一个个“数据块”（Granule）里。布隆索引就像是为这些数据块服务的门卫。当一个查询过来时，它会先问布隆索引：“嘿，我要找的值‘42’，在这个数据块里吗？”

布隆索引回答：“绝对没有！” -> ClickHouse 就会放心地跳过整个数据块，连看都懒得看一眼。

布隆索引回答：“可能有！” -> ClickHouse 才会打开这个数据块，进去仔细查找。

通过跳过大量无关的数据块，查询速度自然就实现了质的飞跃。

实战演练：10倍性能提升是如何炼成的

光说不练假把式。让我们来看一个真实的案例，数据和结论均来自 ClickHouse 社区的公开测试。

场景：一张拥有 1.1 亿 行数据的大表，我们需要在其中一个数组类型的列 x
中，查找包含特定数字的行数。

第1步：暴力扫描（无任何索引）

我们直接执行查询：


SELECT count() FROM bftest WHERE has(x, 42);

结果可想而知，ClickHouse 不得不任劳任怨地检查了全部 1.1 亿 行数据，读取了 9.68 GB 的内容，耗时约 0.5 秒。这是我们优化的起点。

第2步：召唤布隆过滤器

我们为 x
列添加布隆索引，并设定了一个关键参数 GRANULARITY 3
（我们稍后解释它）。


ALTER TABLE bftest ADD INDEX ix1(x) TYPE bloom_filter GRANULARITY 3;
OPTIMIZE TABLE bftest FINAL; -- 让索引对现有数据生效

第3步：见证奇迹

再次执行完全相同的查询：


SELECT count() FROM bftest WHERE has(x, 42);

奇迹发生了！

处理行数：从 1.1 亿 骤降至 541 万！

查询耗时：从 0.5 秒 缩短至 0.06 秒！

性能足足提升了近 10 倍！布隆索引像一位尽职的门卫，帮助 ClickHouse 成功跳过了超过 95% 的无关数据块，极大地减少了 I/O 和计算量。

调优的艺术：寻找最佳“魔法参数”

你可能会问，GRANULARITY 3
是什么意思？能调成 1 吗？或者，这个“魔法本本”的准确率可以调整吗？

问得好！这正是优化的艺术所在。

1. `GRANULARITY`
：索引的粒度

这个参数定义了索引的“粗细程度”。一个数据块（Granule）通常包含 8192 行，GRANULARITY 3
意味着 每 3 个数据块构建一个索引条目。

GRANULARITY 1
：粒度最细，为每个数据块都建立索引。就像给每个抽屉都贴上标签。

GRANULARITY 3
：粒度稍粗，每三个抽屉共享一个标签。

测试中，当我们将粒度从 3 调整为 1 时，性能并没有提升，甚至在某些情况下略有下降。这是因为，虽然细粒度能更精确地跳过数据，但索引本身也变大了，查询时需要检查的“标签”也更多，这些额外的开销抵消了收益。在这个场景下，GRANULARITY 3
显然是更好的平衡点。

2. `bloom_filter(probability)`
：门卫的“准确率”

我们还可以调整布隆过滤器的“误判率”（False Positive Probability）。默认是 0.025
。

更低的误判率（如 0.01）：意味着门卫的“魔法本本”更准，错判的概率更低。但代价是本本会变得更厚（占用更多存储空间）。

更高的误判率（如 0.05）：本本更薄，但更容易误判，导致 ClickHouse 需要打开更多不必要的数据块。

测试结果表明，无论是调高还是调低误判率，性能都没有明显改善。这说明，对于大多数场景，ClickHouse 的默认设置已经足够优秀。

结论与最佳实践

通过这次探险，我们可以得出几个宝贵的结论：

绝对有效：对于 Array
、Map
、String
等类型的列，使用 has()
、like()
、ilike()
等函数进行查询时，布隆过滤器是名副其实的“黑科技”，能带来数量级的性能提升。

GRANULARITY
是调优关键：没有一成不变的最佳值。你需要根据你的数据分布和查询特点进行测试，找到最适合你的平衡点。可以从 3
或 4
开始尝试。

相信默认：在调整误判率之前，请先相信 ClickHouse 的默认值，它通常已经做得很好。

提前规划：最好在建表时就规划好索引，避免在生产环境对已有的大表执行 OPTIMIZE
这种重度操作。

下次当你的 ClickHouse 查询再次陷入泥潭时，不妨试试布隆过滤器这个简单而强大的黑科技，也许它会给你带来意想不到的惊喜！

📍发表于：中国北京

什么是布隆过滤器？一个绝不放过“坏人”的聪明门卫

实战演练：10倍性能提升是如何炼成的

第1步：暴力扫描（无任何索引）

第2步：召唤布隆过滤器

第3步：见证奇迹

调优的艺术：寻找最佳“魔法参数”

1. `GRANULARITY`
：索引的粒度

2. `bloom_filter(probability)`
：门卫的“准确率”

结论与最佳实践

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

什么是布隆过滤器？一个绝不放过“坏人”的聪明门卫

实战演练：10倍性能提升是如何炼成的

第1步：暴力扫描（无任何索引）

第2步：召唤布隆过滤器

第3步：见证奇迹

调优的艺术：寻找最佳“魔法参数”

1. GRANULARITY：索引的粒度

2. bloom_filter(probability)：门卫的“准确率”

结论与最佳实践

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

1. `GRANULARITY`
：索引的粒度

2. `bloom_filter(probability)`
：门卫的“准确率”