ClickHouse

一、概述

1.1 定义

ClickHouse 是开源的列式存储数据库，专为实时分析设计，具有高性能OLAP查询能力，适用于日志分析、金融交易等场景。

1.2 核心特性

列式存储：仅读取查询列，减少I/O
高压缩率：LZ4/ZSTD压缩算法
分布式架构：Shared-Nothing架构支持水平扩展
SQL兼容：支持标准SQL语法
实时分析：支持每秒万级QPS的聚合查询

1.3 适用场景

日志/事件数据分析
实时BI报表
时序数据存储
用户行为分析
区块链交易追踪

二、核心原理

2.1 体系架构

Shared-Nothing 架构

架构对比

2.2 存储引擎

MergeTree 系列

特殊引擎

2.3 查询优化

索引机制

主键索引：稀疏索引加速范围查询
跳跃索引：跳过无关数据块（minmax/bloom_filter等）
分区裁剪：根据分区键过滤数据

执行优化

三、对比分析

3.1 与OLTP数据库对比

3.2 与同类OLAP对比

四、最佳实践

4.1 数据建模建议

分区策略：按时间分区（如toYYYYMMDD(event_date)）
主键设计：高频查询字段+时间列组合
物化视图：预计算加速聚合查询
数据TTL：自动清理过期数据

4.2 性能调优

压缩算法：ZSTD（高压缩率） vs LZ4（高速度）
索引粒度：INDEX_GRANULARITY=8192（默认值）
并行度：max_threads参数配置
内存管理：max_memory_usage限制

4.3 典型用例

-- 创建分布式表
CREATE TABLE hits_distributed ON CLUSTER cluster
AS hits_local
ENGINE = Distributed(cluster, default, hits_local, rand());

-- 使用AggregatingMergeTree
CREATE MATERIALIZED VIEW view_name
ENGINE = AggregatingMergeTree()
ORDER BY (event_date)
AS SELECT 
    event_date,
    uniqState(user_id) AS uv
FROM hits_local
GROUP BY event_date;

主键索引（Primary Index）

核心概念本质：ClickHouse 的主键索引是稀疏索引，本质是数据排序的依据，稀疏索引自动创建。作用：通过 ORDER BY 子句定义，决定数据在磁盘上的物理存储顺序。查询加速：通过跳过无关的数据块，减少 I/O 开销。

创建方式

-- 在建表时通过 ORDER BY 指定主键：
CREATE TABLE example_table
(
 event_time DateTime,
 user_id UInt32,
 metric_value Float64
)
ENGINE = MergeTree()
ORDER BY (event_time, user_id)  -- 主键由 event_time 和 user_id 组成
PARTITION BY toYYYYMM(event_time);

特点
- 稀疏性：索引标记（Index Granule）默认每 8192 行存储一个标记。
- 非唯一性：允许重复值，不强制唯一约束。
- 排序性：数据按 ORDER BY 列的顺序物理存储。

1. 交易数据（Transactions）表结构

存储区块链上的所有交易记录，包括普通转账和智能合约调用。

CREATE TABLE transactions (
    tx_hash String,           -- 交易哈希
    block_number UInt64,      -- 区块号
    block_timestamp DateTime, -- 交易时间
    from_address String,      -- 发送方地址
    to_address String,        -- 接收方地址（可能为空）
    value Decimal(38,18),     -- 交易金额（ETH）
    gas_price UInt64,         -- Gas 价格（Wei）
    gas_used UInt64,          -- 实际 Gas 消耗
    status UInt8,             -- 交易状态（0:失败, 1:成功）
    method_id String,         -- 调用的合约方法 ID
    contract_address String,  -- 交易涉及的合约地址
    -- 物理存储引擎
    INDEX idx_tx_hash tx_hash TYPE bloom_filter() GRANULARITY 1,
    INDEX idx_from_address from_address TYPE bloom_filter() GRANULARITY 1,
    INDEX idx_to_address to_address TYPE bloom_filter() GRANULARITY 1
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(block_timestamp) 
ORDER BY (block_number, tx_hash) 
SAMPLE BY block_number
SETTINGS index_granularity = 8192;

learning_notes

学习笔记

ClickHouse

一、概述

1.1 定义

1.2 核心特性

1.3 适用场景

二、核心原理

2.1 体系架构

Shared-Nothing 架构

架构对比

2.2 存储引擎

MergeTree 系列

特殊引擎

2.3 查询优化

索引机制

执行优化

三、对比分析

3.1 与OLTP数据库对比

3.2 与同类OLAP对比

四、最佳实践

4.1 数据建模建议

4.2 性能调优

4.3 典型用例

主键索引（Primary Index）

1. 交易数据（Transactions）表结构