耶是 ClickHouse！我们有救了！！

Sat, 26 Jul 2025 00:00:00 +0000

本来我懒得装，但是 MySQL 太慢了，遭不住，咱还是把 ClickHouse 装起来吧。

在《Agent 实战：智能路由、任务拆解和链路工程》一文中，我实现了一个简单的 ChatBI，它能查询 MySQL 数据库。对于小批量数据量，MySQL 尚可应付，但是当数据量来到千万量级时，一次 MySQL 查询将消耗数秒甚至数十秒，这么长的等待时间是用户难以忍受的。而且 Agent 还有一个技术问题，它的 NL2SQL 尚未做到 one-shot，也就是说，在拿到最终结果前，它也许需要多次试错，这将进一步拉长查询时间。

如何无痛解决查询效率低下的问题呢？很简单，只需要换数据库就可以做到。这便引入今天的主角：ClickHouse。

一、分析利器

ClickHouse 是 Yandex 旗下的一款开源的列式存储数据库，专为 联机分析处理 (OLAP) 场景设计。在做数据分析时，它比传统数据库快几倍到几十倍。分析场景的核心需求是「聚合计算」，即 GROUP BY 子句下的 SUM, AVG, COUNT 操作，这些正是 ClickHouse 的强项。

为什么它的聚合计算如此之快呢？因为它具有如下特性：

列式存储：顾名思义，列存的数据是按列存储的。这种存储方式可以减少无效 I/O，因为列存可以只读取查询中涉及的列。而非行存那样，读取整行后再丢掉不需要的列
并行计算：列存的另一个优势是数据更容易切分。单列数据的连续性和同构性更强，无需考虑与其他列的关联，因此可以更方便地按维度（如时间区间、数值分段）拆分并分配到不同节点。当然，这种设计的代价是使得插入操作变得更加昂贵
物化视图：物化视图可以把高频分析的结果提前算好存在表里，后续查询直接读结果，无需重新计算

二、安装过程

用 Docker 安装，过程相对简单。工业界在集群上装，比咱们这个复杂不少。

1. 配置 Docker 镜像源

中国大陆地区下载镜像，需要配置镜像源。

对于 Linux 系统，需要在 /etc/docker/daemon.json 文件中配置镜像源（如下）。Windows 和 MacOS 系统更方便一点，可以直接在 Docker Desktop 的 Settings -> Docker Engine 页面修改 daemon.json 文件。

在 daemon.json 文件中，添加镜像源字段 registry-mirrors：

ClickHouse on Chang Luo

耶是 ClickHouse！我们有救了！！

一、分析利器

二、安装过程

1. 配置 Docker 镜像源