不思饭: 十一月 2025

11/19/2025

数据迁移一般是什么场景需求，有哪些难点

数据迁移（Data Migration）是IT领域中一项高风险、高复杂度的核心工作。简单来说，就是将数据从一个存储系统转移到另一个存储系统。

以下详细解析数据迁移的**典型场景**以及面临的**核心难点**。 --- ### 一、数据迁移的常见场景需求数据迁移通常不是为了迁移而迁移，而是由业务发展或技术架构演进驱动的。 #### 1. 基础设施升级与上云（Cloud Migration） * **场景：** 传统的IDC机房成本高、弹性差，企业决定将业务从本地机房迁移到公有云（如AWS、阿里云），或者从一个云厂商迁移到另一个云厂商（多云战略）。 * **特点：** 涉及网络环境变化，数据量通常巨大。 #### 2. 数据库选型变更（去O / 国产化 / 降本） * **场景：** * **去Oracle：** 因为Oracle授权费昂贵，企业将其替换为开源的MySQL、PostgreSQL或TiDB等。 * **国产化替代：** 金融、政务等行业出于信创合规要求，迁移到国产数据库（如达梦、OceanBase）。 * **架构转型：** 从关系型数据库（SQL）迁移到非关系型数据库（NoSQL，如MongoDB）以应对高并发读写。 #### 3. 架构重构（单体转微服务） * **场景：** 旧的单体应用（Monolith）被拆分为微服务架构。 * **特点：** 以前所有表都在一个大库里，现在需要按业务域拆分到不同的物理库中（垂直拆分），或者因为数据量太大需要进行分库分表（水平拆分）。 #### 4. 业务合并与收购（M&A） * **场景：** 公司A收购了公司B，需要将两套完全不同的IT系统和数据进行合并，统一用户中心、订单系统等。 * **特点：** 数据标准不一致，清洗工作量大。 #### 5. 数据仓库与大数据建设（OLTP 到 OLAP） * **场景：** 业务数据库（OLTP）只存最新热数据，历史数据需要迁移到数据仓库（如Hive, Snowflake, ClickHouse）进行冷存和分析。 #### 6. 存储介质/版本升级 * **场景：** 数据库版本过低（如MySQL 5.6 升 8.0），或者老旧服务器硬件老化，需要迁移到新硬件上。 --- ### 二、数据迁移的六大核心难点数据迁移最怕的是：“**迁不过去、迁不对、业务停太久**”。 #### 1. 业务停机时间（Downtime）这是最敏感的指标。 * **难点：** 对于互联网、金融核心业务，通常要求**7x24小时不间断**。 * **挑战：** 如果数据量有几十TB，全量拷贝可能需要几天。你不能让业务停几天来导数据。 * **解决方向：** 需要实现**平滑迁移（不停机迁移）**。通常采用“全量迁移 + 增量同步（CDC技术）”的方案，追平数据后进行秒级切换。 #### 2. 数据一致性与完整性（Data Integrity） * **难点：** 在迁移过程中，源端数据库还在不断写入新数据，如何保证目标端的数据和源端**一模一样**？ * **挑战：** * **丢失：** 网络抖动导致丢包。 * **乱序：** 增量日志同步时，如果执行顺序错了（先Update后Insert），数据就废了。 * **精度：** 浮点数在不同数据库中精度定义不同，迁移后金额可能差几分钱。 * **字符集：** 如GBK转UTF-8，特殊生僻字可能变成乱码（??）。 #### 3. 异构数据库的兼容性（Heterogeneity）这是“去O”或跨数据库迁移最大的噩梦。 * **难点：** 源库（如Oracle）和目标库（如MySQL）是两种完全不同的“物种”。 * **挑战：** * **语法不同：** Oracle的PL/SQL存储过程、触发器、函数，在MySQL中可能根本不支持，或者语法完全不同，需要人工重写。 * **数据类型映射：** 源库的`NUMBER(10)`对应目标库的`INT`还是`DECIMAL`？映射错了会导致数据截断或报错。 * **空值处理：** Oracle中空字符串等同于NULL，而MySQL中空字符串和NULL是两码事。 #### 4. 数据校验（Verification）迁移完了，你怎么证明数据是对的？ * **难点：** 数据量太大（如10亿行），无法人工核对。 * **挑战：** 全量比对（MD5/Hash）非常消耗资源，会把数据库拖垮；抽样比对又怕漏掉关键错误。 * **解决方向：** 需要专业的校验工具，进行行数对比、关键字段指纹对比等。 #### 5. 性能与回滚方案（Performance & Rollback） * **难点（性能）：** 迁移过程本质是大规模读写，如果控制不好，会把生产库的CPU/IO占满，导致线上业务卡顿甚至宕机。 * **难点（回滚）：** 迁移并切换到新系统后，运行了2小时发现有严重Bug，必须切回老系统。但这2小时内产生的新订单怎么办？ * **挑战：** 需要建立**双向同步**机制，即切到新库后，新库的数据也要实时同步回老库，以备随时“撤退”。 #### 6. 历史债务与脏数据 * **难点：** 老系统运行多年，里面可能有很多不符合现有约束的脏数据（如必填项为空、外键失效等）。 * **挑战：** 直接导入新库会报错。需要在迁移过程中进行**ETL（抽取、转换、加载）**，清洗脏数据，但这非常耗时且容易出错。 --- ### 三、总结：一个典型的平滑迁移流程为了解决上述难点，业界标准的迁移流程通常是： 1. **评估（Assess）：** 扫描源库，分析兼容性，识别不兼容的SQL和对象。 2. **全量迁移：** 将某一时刻的存量数据搬运到目标库（耗时最长）。 3. **增量同步：** 利用CDC（Change Data Capture）技术，通过解析数据库日志（如MySQL Binlog），将全量迁移期间及之后产生的新数据实时同步到目标库。 4. **数据校验：** 对比源端和目标端，确保一致。 5. **灰度切流/割接：** 业务低峰期，断开源端写入，等待增量同步追平（延迟为0），修改应用连接地址指向新库。 6. **回滚保障：** 开启新库到老库的反向同步，一旦出问题，随时切回老库。

11/17/2025

MongoDB vs MySQL 核心知识点总结

# MongoDB vs MySQL 核心知识点总结

## 一、适用场景对比 ### ✅ MongoDB适合的数据类型 | 数据类型 | 特点 | 示例场景 | |---------|------|---------| | **Schema灵活/不固定** | 同集合文档结构可不同 | 电商商品、CMS、用户自定义字段 | | **深层嵌套文档** | 避免多表JOIN | 订单+用户+商品信息聚合 | | **高并发写入日志** | 写多读少 | IoT传感器、应用日志、事件追踪 | | **大数据量水平扩展** | 原生Sharding | 海量数据需要分片 | | **地理位置数据** | 内置地理索引 | LBS应用、附近的人 | ### ❌ MongoDB不适合的场景 | 场景 | 原因 | 应选择 | |------|------|--------| | 复杂事务（特别是跨分片） | 事务支持弱、2PC性能差 | MySQL/NewSQL | | 多表关联查询 | JOIN性能差 | MySQL | | 强一致性要求 | 默认最终一致性 | MySQL | | 财务/支付数据 | 需要严格ACID | MySQL | | 复杂BI报表 | 优化器不成熟 | MySQL + 数仓 | --- ## 二、MongoDB写入性能优势 ### 核心原因 ``` 写入流程对比： MongoDB (默认): 写入 → 内存 → Journal(100ms) → 返回客户端 ↓ 后台异步刷盘(60s checkpoint) MySQL (InnoDB): 写入 → redo log → binlog → 提交确认 → 返回客户端 (需fsync) (需fsync) ``` ### 技术差异详解 | 维度 | MongoDB | MySQL | MongoDB优势 | |------|---------|-------|------------| | **写入确认** | 可选：w:0/w:1/w:majority | 必须等待事务提交 | ✅ 灵活可配 | | **Schema验证** | 运行时可选 | 必须严格验证 | ✅ 无验证开销 | | **数据结构** | 嵌套文档一次写入 | 多表分别写入+外键 | ✅ 减少写次数 | | **索引维护** | B树索引更新轻量 | 主键索引+二级索引+外键 | ✅ 开销较小 | | **事务开销** | 默认单文档原子性 | MVCC+undo log | ✅ 轻量级 | | **并发控制** | 文档级锁（细粒度） | 行锁+gap锁 | ⚖️ 各有优势 | ### 性能代价 | 牺牲项 | 影响 | |--------|------| | 数据一致性 | 默认最终一致性（可配置） | | 事务支持 | 复杂事务能力弱 | | 存储空间 | 通常占用更多（冗余设计） | | 数据完整性 | 无外键约束 | --- ## 三、MongoDB持久化机制（Journal） ### Journal = MongoDB的Redo Log ``` 写入流程：数据 → WiredTiger Cache → Journal → 数据文件 ↓ ↓ ↑ 立即返回 100ms刷盘 60s checkpoint ``` ### 对比表 | 特性 | MongoDB Journal | MySQL Redo Log | |------|----------------|----------------| | **作用** | 崩溃恢复 | 崩溃恢复 | | **机制** | WAL预写日志 | WAL预写日志 | | **刷盘频率** | 100ms (commitIntervalMs) | 1秒或每次提交 | | **文件管理** | checkpoint后删除 | 固定大小循环使用 | | **压缩** | 支持（snappy/zlib） | 不压缩 | ### WriteConcern持久化级别 ```javascript // w:0 - 不等待确认（最快，可能丢数据） { writeConcern: { w: 0 } } // w:1 - 等待主节点内存确认（默认，崩溃可能丢100ms） { writeConcern: { w: 1 } } // w:1, j:true - 等待Journal刷盘（类似MySQL默认） { writeConcern: { w: 1, j: true } } // w:"majority" - 等待多数节点确认（最安全） { writeConcern: { w: "majority" } } ``` ### 崩溃恢复流程 ``` 1. 检查最后一个checkpoint 2. 从checkpoint开始重放Journal 3. 恢复到崩溃前的一致性状态 ``` --- ## 四、MongoDB分片机制 ### 架构组成（三层） ``` 客户端 ↓ [Mongos路由层] ← 无状态，可多个 ↓ [Config Servers] ← 元数据（副本集，3节点） ↓ [Shard分片节点] ← 实际数据存储（每个Shard是副本集） ├─ Shard1: server-1a, 1b, 1c ├─ Shard2: server-2a, 2b, 2c └─ Shard3: server-3a, 3b, 3c ``` **关键：不同分片在不同物理节点上** ### Chunk机制 ```javascript // 数据按Shard Key分成Chunks（默认64MB） Chunk1: user_id [MinKey → 1000] → Shard1 Chunk2: user_id [1000 → 2000] → Shard2 Chunk3: user_id [2000 → MaxKey] → Shard3 // Chunk自动分裂和平衡 - Chunk > 64MB → 自动分裂 - 各Shard的Chunk数量差异大 → Balancer迁移 ``` ### 分片策略 | 策略 | 特点 | 适用场景 | |------|------|---------| | **范围分片** | `{ user_id: 1 }` | 范围查询多，但可能数据倾斜 | | **哈希分片** | `{ user_id: "hashed" }` | 数据均匀分布，但范围查询慢 | | **Zone分片** | 地理/业务隔离 | 多租户、合规要求 | ### 数据路由 ```javascript // 单分片查询（高效） db.users.find({ user_id: 1500 }) // Mongos查Config → 路由到Shard2 → 返回 // 多分片查询（Scatter-Gather） db.users.find({ age: 25 }) // 没有分片键 // Mongos并行查询所有Shard → 合并结果 → 返回 ``` ### 典型部署规模 **3-Shard集群需要：** - 3个Shard × 3副本 = 9台服务器 - 3个Config Server = 3台服务器 - N个Mongos（通常与应用服务器同机部署） - **总计：至少12台服务器** --- ## 五、MongoDB二级字段索引 ### ✅ 完全支持，这是核心优势 ```javascript // 1. 嵌套文档字段索引 { profile: { city: "北京", zipcode: "100000" } } db.users.createIndex({ "profile.city": 1 }); db.users.find({ "profile.city": "北京" }); // 使用索引 // 2. 数组内字段索引（多键索引） { specs: [ { k: "color", v: "black" }, { k: "ram", v: "16GB" } ] } db.products.createIndex({ "specs.v": 1 }); // 为每个数组元素都创建索引条目 // 3. 复合索引 db.users.createIndex({ "status": 1, "profile.city": 1 }); ``` ### 缺失字段的索引记录 | 情况 | 普通索引 | 稀疏索引 (sparse: true) | |------|---------|------------------------| | 字段存在且有值 | ✅ 索引 | ✅ 索引 | | 字段值为 null | ✅ 索引 | ❌ 不索引 | | 字段不存在 | ❌ 不索引 | ❌ 不索引 | **典型应用：可选唯一字段** ```javascript // 允许多个用户不填email，但填了必须唯一 db.users.createIndex( { email: 1 }, { unique: true, sparse: true } ); ``` --- ## 六、MongoDB vs MySQL 索引差异 ### 核心差异对比表 | 特性 | MySQL (InnoDB) B+Tree | MongoDB (WiredTiger) B-Tree | |------|----------------------|----------------------------| | **核心结构** | 聚簇索引（数据即索引） | 非聚簇索引（独立索引+文档） | | **主键查询** | 一步到位（数据在索引叶子） | 两步（索引→指针→文档） | | **二级索引** | 叶子存主键值（需回表） | 叶子存RecordID指针 | | **索引类型** | 基础索引为主 | 多键、稀疏、文本、地理等丰富类型 | | **NULL/缺失** | NULL会被索引 | 默认稀疏（缺失不索引） | | **更新代价** | 更新PK代价极高 | 文档移动需更新所有索引 | ### 详细解析 #### 1. 聚簇索引 vs _id索引（最大区别） **MySQL聚簇索引：** ``` 数据按主键组织成一棵大B+Tree 叶子节点 = 完整行数据主键查询：一次树查找，数据就在旁边优点：主键查询极快、范围扫描高效（顺序IO）缺点：只能有一个、主键更新代价高、页分裂 ``` **MongoDB _id索引：** ``` 数据独立存储，_id索引是普通索引叶子节点 = 文档位置指针（RecordID）查询：索引查找 → 获取指针 → 读取文档优点：所有索引平等、文档移动灵活缺点：任何查询都是两步、范围查询随机IO ``` #### 2. 二级索引实现 **MySQL：** ```sql -- 二级索引存主键值 INDEX(age) → 叶子存储 primary_key_value 查询流程：age索引树 → 找到PK → 聚簇索引树 → 行数据（回表，两次B+Tree查找） ``` **MongoDB：** ```javascript // 二级索引存文档指针 INDEX(age) → 叶子存储 RecordID 查询流程：age索引树 → RecordID → 文档数据（一次树查找 + 指针访问） ``` #### 3. MongoDB特有索引类型 | 索引类型 | 解决问题 | MySQL对应方案 | |---------|---------|--------------| | **多键索引** | 数组元素索引 | 需要关联表+JOIN | | **稀疏索引** | 可选字段/节省空间 | 无法实现 | | **文本索引** | 内置全文搜索 | 需要外部ES | | **地理索引** | LBS查询 | 空间索引（功能较弱） | --- ## 七、范围查询性能对比 ### 性能对比总结表 | 场景 | MongoDB | MySQL | 谁更强 | 原因 | |------|---------|-------|--------|------| | **主键范围查询** | 随机IO | 顺序IO | ✅ **MySQL** | 聚簇索引 | | **覆盖索引范围查询** | 部分支持 | 完全支持 | ✅ **MySQL** | 不回表 | | **二级索引范围查询** | 指针访问 | 回表（2次树查找） | ⚖️ **相近** | - | | **嵌套字段范围查询** | 直接查询 | 需要JOIN | ✅ **MongoDB** | 文档模型 | | **分片环境范围查询** | 原生支持 | 应用层处理 | ✅ **MongoDB** | 架构优势 | ### 主键范围查询详解（MySQL优势明显） **MySQL（顺序IO）：** ```sql SELECT * FROM users WHERE id BETWEEN 1000 AND 5000; 磁盘布局（物理连续）： [1000] → [1001] → [1002] → ... → [5000] 一次顺序读取，磁盘磁头移动最少性能：~10ms ``` **MongoDB（随机IO）：** ```javascript db.users.find({ _id: { $gte: 1000, $lte: 5000 } }) 磁盘布局（可能分散）： [其他] [1000] [其他] [1003] [1001] ... 多次随机IO，磁盘跳来跳去性能：~100-500ms（无缓存） ``` ### 影响因素 | 因素 | 对MongoDB的影响 | |------|----------------| | **数据在内存** | 随机IO劣势消失，性能接近MySQL | | **返回数据量** | 小数据量差距不大，大数据量MySQL优势明显 | | **SSD vs HDD** | SSD大幅缩小差距，HDD差距巨大 | | **文档大小** | 小文档影响小，大文档IO开销大 | --- ## 八、MongoDB显著慢于MySQL的场景 ### 真正的固有劣势（2个） #### 1. 跨分片事务（架构决定，无法优化） ```javascript // 需要两阶段提交（2PC） session.startTransaction(); db.shard1.accounts.updateOne(...); // 账户A在分片1 db.shard2.accounts.updateOne(...); // 账户B在分片2 session.commitTransaction(); 性能对比： - MySQL单库事务：5ms - MongoDB单分片事务：20ms - MongoDB跨分片事务：200-500ms (10-100倍慢) ``` #### 2. 全表/复杂聚合统计（优化器不成熟） ```javascript // MySQL有：表统计信息、直方图、查询计划缓存、成熟优化器 // MongoDB：优化器相对简单百万级数据复杂报表： - MySQL: ~100ms - MongoDB: ~1500ms (15倍慢) ``` ### 使用不当导致的"慢"（6个） #### 1. 多表JOIN（场景选择错误） ```javascript // ❌ 错误用法 db.users.aggregate([ { $lookup: { from: "orders" ... }}, { $lookup: { from: "order_items" ... }} ]); // 性能: ~3500ms // ✅ 正确建模（嵌套文档） { user: { name: "张三" }, order: { order_no: "..." }, items: [...] // 嵌入 } // 性能: ~5ms 结论：需要频繁JOIN，别用MongoDB ``` #### 2. 主键大批量范围查询（场景选择错误） ```javascript // 如果核心场景是主键范围扫描 // 应该用MySQL（聚簇索引） // MongoDB优化： // - 使用投影减少数据传输 // - 分批查询 // - 但本质上这不是MongoDB的强项 ``` #### 3. 频繁更新计数器（需要优化设计） **实测性能（公平配置下）：** ``` 小文档 + 无多余索引 + w:1,j:false： - MongoDB: 8000 QPS - MySQL: 4000 QPS MongoDB甚至更快！但以下情况MongoDB慢： - 大文档(100KB+): MongoDB 1500 QPS vs MySQL 4000 QPS - 多索引包含计数器: MongoDB 1000 QPS vs MySQL 3500 QPS - 高writeConcern(majority): MongoDB 800 QPS vs MySQL 4000 QPS ``` **最佳方案：Redis（100000+ QPS）** #### 4. 复杂WHERE条件（索引设计问题） ```javascript // ❌ 没有合理索引 db.products.find({ category: 'electronics', price: { $gte: 1000, $lte: 5000 }, stock: { $gt: 0 }, rating: { $gte: 4.0 } }); // ✅ 创建复合索引 db.products.createIndex({ category: 1, rating: 1, price: 1 }); ``` #### 5. 大范围排序（索引设计问题） ```javascript // ❌ 没有支持排序的索引 db.logs.find({ status: 'error' }).sort({ created_at: -1 }); // 内存排序，32MB限制，可能失败 // ✅ 创建支持排序的复合索引 db.logs.createIndex({ status: 1, created_at: -1 }); // 使用索引排序，性能完全OK ``` #### 6. 强一致性读（配置问题） ```javascript // ❌ 默认可能读到从节点旧数据 db.users.findOne({ _id: 123 }); // ✅ 配置强一致性 db.users.findOne({ _id: 123 }, { readPreference: 'primary', readConcern: { level: 'majority' } }); // 和MySQL一样的强一致性，但延迟略高 ``` --- ## 九、核心思维方式 ### ❌ 错误思维 ``` "用MySQL的方式使用MongoDB" "用MongoDB存关系数据，然后抱怨JOIN慢" "不理解文档模型，直接把表结构搬过来" ``` ### ✅ 正确思维 **场景选择：** ``` 数据高度关系化 + 复杂JOIN → MySQL 数据文档化 + Schema灵活 → MongoDB 高并发计数器 → Redis 全文搜索 → Elasticsearch 分布式事务 → MySQL/NewSQL ``` **设计原则：** ``` MongoDB： - 按查询模式设计Schema - 接受反范式设计（数据冗余） - 嵌套相关数据（避免JOIN） - 合理使用索引（避免过度索引） MySQL： - 范式设计（减少冗余） - 通过JOIN关联数据 - 主键选择至关重要（聚簇索引） ``` --- ## 十、最佳实践速查表 ### MongoDB索引优化 ```javascript // 1. 为嵌套字段创建索引 db.coll.createIndex({ "address.city": 1 }); // 2. 复合索引顺序：等值 → 排序 → 范围 db.coll.createIndex({ status: 1, created_at: -1, price: 1 }); // 3. 不要对计数器字段建索引 // ❌ db.articles.createIndex({ view_count: 1 }); // 4. 使用稀疏索引节省空间 db.users.createIndex({ email: 1 }, { unique: true, sparse: true }); // 5. 使用explain分析 db.coll.find(...).explain("executionStats"); // 6. 避免内存排序 // 创建支持排序的索引，或使用 allowDiskUse(true) ``` ### MongoDB写入优化 ```javascript // 1. 根据场景选择writeConcern // 日志类：{ w: 1, j: false } // 重要数据：{ w: "majority", j: true } // 2. 批量写入 db.coll.insertMany([...], { ordered: false }); // 3. 小文档设计 // 计数器独立存储，避免大文档 // 4. 合理分片键 // 高基数、分布均匀、符合查询模式 sh.shardCollection("db.coll", { user_id: "hashed" }); ``` ### 典型架构组合 ``` 客户端 ↓ ┌────────┬──────────┬──────────────┬──────────┐ │ │ │ │ │ MySQL MongoDB Redis Elasticsearch 主数据文档数据缓存/计数器搜索/日志分析事务保证灵活Schema 高性能全文检索 ``` --- ## 十一、性能数据速查 ### 写入性能（参考值） | 场景 | MongoDB | MySQL | |------|---------|-------| | 单条插入（默认配置） | ~8ms | ~12ms | | 批量插入（1000条） | ~2秒 | ~12秒 | | 高并发写入（日志） | 50K+ writes/s | 20K writes/s | ### 查询性能（参考值） | 场景 | MongoDB | MySQL | |------|---------|-------| | 主键查询 | ~1ms | ~0.5ms | | 主键范围(1万条) | ~200ms | ~20ms | | 二级索引查询 | ~2ms | ~2ms | | 3表JOIN | ~3500ms | ~10ms | | 嵌套字段查询 | ~2ms | ~50ms(JOIN) | ### 事务性能（参考值） | 场景 | MongoDB | MySQL | |------|---------|-------| | 单文档事务 | ~2ms | ~2ms | | 单分片多文档事务 | ~20ms | ~5ms | | 跨分片事务 | ~500ms | N/A | --- ## 十二、关键结论 1. **MongoDB写入快**的本质：用一致性和复杂查询能力换取写入性能 2. **MongoDB有Journal机制**，类似MySQL的redo log 3. **MongoDB分片**在不同物理节点，通过Chunk机制自动平衡 4. **MongoDB支持二级字段索引**，这是其文档模型的核心优势 5. **索引差异核心**：MySQL聚簇索引 vs MongoDB非聚簇索引 6. **范围查询**：主键查询MySQL强，嵌套字段查询MongoDB强 7. **MongoDB慢的场景**：主要是跨分片事务和复杂统计（固有），其他多是使用不当 8. **计数器更新**：合理配置下MongoDB与MySQL性能相当

MySQL存储与事务机制完全指南

## 目录 1. [MySQL索引与数据的存储位置](#1-mysql索引与数据的存储位置) 2. [Buffer Pool：MySQL的内存管理核心](#2-buffer-pool-mysql的内存管理核心) 3. [热点数据识别：改进的LRU算法](#3-热点数据识别改进的lru算法) 4. [全表扫描的工作机制](#4-全表扫描的工作机制) 5. [数据传输：从磁盘到客户端](#5-数据传输从磁盘到客户端) 6. [写操作与Buffer Pool](#6-写操作与buffer-pool) 7. [脏页管理与刷盘机制](#7-脏页管理与刷盘机制) 8. [大批量更新的挑战与解决方案](#8-大批量更新的挑战与解决方案) 9. [Redo Log：崩溃恢复的保障](#9-redo-log崩溃恢复的保障) 10. [Binlog：复制与恢复](#10-binlog复制与恢复) 11. [Undo Log与MVCC机制](#11-undo-log与mvcc机制) 12. [事务隔离级别详解](#12-事务隔离级别详解) --- ## 1. MySQL索引与数据的存储位置 ### 1.1 核心结论 **索引和数据最终存储在磁盘，但运行时的热点部分会被缓存在内存的Buffer Pool中。** ``` 永久存储：磁盘（.ibd文件） ├─ 数据页（16KB为单位） ├─ 索引页（B+树结构） └─ 容量大，持久化，但访问慢运行时缓存：内存（Buffer Pool） ├─ 热点数据页 ├─ 热点索引页 └─ 容量小，易失，但访问快（比磁盘快1000-10000倍） ``` ### 1.2 工作原理 ```sql -- 执行查询时 SELECT * FROM users WHERE id = 10; -- 内部流程： 1. 检查Buffer Pool中是否有id=10所在的数据页 ├─ 命中 → 直接从内存读取（极快） └─ 未命中 → 从磁盘加载到Buffer Pool（较慢） 2. 返回数据给客户端 ``` ### 1.3 关键配置 ```sql -- 查看Buffer Pool大小 SHOW VARIABLES LIKE 'innodb_buffer_pool_size'; -- 推荐设置：服务器物理内存的50-80% -- 例如：32GB内存的服务器 SET GLOBAL innodb_buffer_pool_size = 24G; ``` --- ## 2. Buffer Pool：MySQL的内存管理核心 ### 2.1 Buffer Pool的组成 ``` ┌──────────────────────────────────────────┐ │ InnoDB Buffer Pool │ ├──────────────────────────────────────────┤ │ │ │ 【数据页缓存】 │ │ - 表数据（16KB/页） │ │ │ │ 【索引页缓存】 │ │ - B+树的索引节点 │ │ │ │ 【Change Buffer】 │ │ - 非唯一二级索引的变更缓冲 │ │ │ │ 【自适应哈希索引】 │ │ - 热点数据的快速访问路径 │ │ │ └──────────────────────────────────────────┘ ``` ### 2.2 页面的状态 ``` Buffer Pool中的页面有三种状态： 1. Free Page（空闲页） - 未被使用的页面 - 可以直接分配 2. Clean Page（干净页） - 内存数据 = 磁盘数据 - 可以直接淘汰（丢弃） 3. Dirty Page（脏页）⭐ - 内存数据 ≠ 磁盘数据（已修改但未刷盘） - 淘汰前必须先刷盘 ``` ### 2.3 监控Buffer Pool ```sql -- 查看Buffer Pool状态 SHOW ENGINE INNODB STATUS\G -- 关键指标： Buffer pool size -- 总页数 Free buffers -- 空闲页数 Database pages -- 使用中的页数 Modified db pages -- 脏页数量 Buffer pool hit rate -- 命中率（应>99%） -- 查看命中率 SHOW GLOBAL STATUS LIKE 'Innodb_buffer_pool_read%'; 命中率 = (read_requests - reads) / read_requests -- 理想值：>99% -- <95%需要调优 ``` --- ## 3. 热点数据识别：改进的LRU算法 ### 3.1 为什么需要改进LRU **经典LRU的问题：** ``` 问题1：预读失效 - InnoDB会预读相邻的数据页 - 但这些预读页可能不会被真正使用 - 却占据了LRU链表头部，挤掉真正的热数据问题2：Buffer Pool污染 - 全表扫描会读取大量一次性使用的数据 - 这些冷数据会把真正的热数据全部淘汰 ``` ### 3.2 InnoDB的分代LRU ``` ┌─────────────────────────────────────────────┐ │ InnoDB Buffer Pool LRU List │ ├─────────────────────────┬───────────────────┤ │ Young区域 (热数据) │ Old区域 (冷数据) │ │ 约占 5/8 (63%) │ 约占 3/8 (37%) │ │ │ │ │ 最近频繁访问的页 │ 新加载的页 & │ │ "真正的热数据" │ 很久没访问的页 │ └─────────────────────────┴───────────────────┘ ↑ ↑ 头部(Hot) Midpoint中点尾部(Cold) ``` ### 3.3 核心规则 ``` 规则1：新页插入位置 - 新读取的页不放在链表头部 - 而是放在Old区的头部（midpoint位置） - 需要"考验期"才能晋升规则2：晋升条件（Old区 → Young区） - 在Old区停留时间 > innodb_old_blocks_time（默认1秒） - 并且在此之后被再次访问 - 才能晋升到Young区规则3：Young区内的移动 - 不是每次访问都移到头部（成本太高） - 只有在Young区后1/4部分时，才移到头部 - 前3/4部分的访问不移动位置 ``` ### 3.4 相关配置 ```sql -- Old区占比（默认37%） SHOW VARIABLES LIKE 'innodb_old_blocks_pct'; innodb_old_blocks_pct = 37 -- Old区停留时间（默认1000ms） SHOW VARIABLES LIKE 'innodb_old_blocks_time'; innodb_old_blocks_time = 1000 -- 调整示例（减少全表扫描影响） SET GLOBAL innodb_old_blocks_time = 5000; -- 延长到5秒 ``` ### 3.5 效果对比 ``` 场景：100GB大表全表扫描，Buffer Pool 8GB 【简单LRU】：扫描页进入 → 头部原有热数据 → 被挤到尾部 → 被淘汰结果：Buffer Pool被完全污染 ✗ 【改进LRU】：扫描页进入 → Old区头部扫描页快速流转 → 在Old区就被淘汰 Young区热数据 → 大部分保留结果：热数据得到一定保护 ✓ ``` --- ## 4. 全表扫描的工作机制 ### 4.1 表大于Buffer Pool的场景 ``` 场景设定： - 表大小：100GB（640万个16KB的页） - Buffer Pool：8GB（50万个页） - 执行：SELECT * FROM huge_table; ``` ### 4.2 滚动读取过程 ``` 第一批（0-8GB）：磁盘: [====读取中====][........未读........] 内存: [数据页1-50万] ← Buffer Pool填满第二批（8-16GB）：磁盘: [已读][====读取中====][......未读......] 内存: [数据页50万-100万] └→ 页1-50万被逐渐淘汰（LRU尾部）第三批（16-24GB）：磁盘: [已读][已读][====读取中====][...未读...] 内存: [数据页100万-150万] └→ 页50万-100万被淘汰 ... 以此类推，像传送带一样滚动 ... 最后一批（92-100GB）：磁盘: [=======全部读过=======][====最后一批====] 内存: [数据页590万-640万] └→ 前面的页早已被淘汰 ``` ### 4.3 性能影响 ``` 磁盘I/O计算： - 数据总量：100GB - 顺序读速度：200 MB/s（机械盘）或 500 MB/s（SSD）耗时： - 机械盘：100GB ÷ 200MB/s ≈ 512秒 ≈ 8.5分钟 - SSD：100GB ÷ 500MB/s ≈ 205秒 ≈ 3.4分钟影响： 1. 扫描期间：大量磁盘I/O，查询极慢 2. 扫描之后：热数据被淘汰，其他查询变慢 3. 资源竞争：占用磁盘带宽，影响其他业务 ``` ### 4.4 优化措施 ```sql -- ❌ 不推荐 SELECT * FROM huge_table; -- ✓ 推荐方案 -- 方案1：分批处理 SELECT * FROM huge_table WHERE id BETWEEN 1 AND 100000; -- 暂停，让系统恢复 SELECT * FROM huge_table WHERE id BETWEEN 100001 AND 200000; -- 方案2：添加索引，避免全表扫描 CREATE INDEX idx_column ON huge_table(column); SELECT * FROM huge_table WHERE column = 'value'; -- 方案3：只查询需要的列 SELECT id, name FROM huge_table WHERE condition; -- 方案4：使用从库 -- 在从库执行大查询，不影响主库 ``` --- ## 5. 数据传输：从磁盘到客户端 ### 5.1 完整的数据流 ``` ┌────────┐ ┌──────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │ 磁盘 │→→→│ Buffer │→→→│ Server │→→→│ 网络层 │→→→│ 客户端 │ │ .ibd │ │ Pool │ │ 层 │ │ Socket │ │ 应用 │ └────────┘ └──────────┘ └────────┘ └────────┘ └────────┘ 100GB 8GB 临时处理 16KB ??? 持久化滚动窗口即时发送流式传输取决于模式 ``` ### 5.2 各层的角色 ``` 【InnoDB层 - Buffer Pool】 - 作用：数据的"源头"和"工作台" - 大小：GB级别（如8GB） - 行为：滚动加载数据页 - 不参与：数据打包和网络传输【Server层】 - 作用：数据处理和格式化 - 流程： 1. 从Buffer Pool读取行数据 2. 应用WHERE条件 3. 投影需要的列 4. 格式化成MySQL协议包 5. 立即发送（不堆积）【网络层 - net_buffer】 - 大小：16KB（net_buffer_length） - 作用：临时缓冲，积累一定数据后发送 - 行为：填满16KB → flush → 继续积累【客户端】⚠️ 关键差异 - 模式1：缓冲模式（默认，危险） → 接收所有数据到内存 → 100GB数据会占满客户端内存！ - 模式2：流式模式（推荐） → 边接收边处理 → 内存占用恒定（只保存当前处理的行） ``` ### 5.3 客户端的两种模式 #### 缓冲模式（Store Result） ```python # Python - 默认模式（危险） import pymysql cursor = conn.cursor() # 默认缓冲模式 cursor.execute("SELECT * FROM huge_table") rows = cursor.fetchall() # ⚠️ 全部加载到内存！ # 如果是100GB数据，客户端内存爆炸！ for row in rows: process(row) ``` #### 流式模式（Use Result / SSCursor） ```python # Python - 流式模式（推荐） import pymysql cursor = conn.cursor(pymysql.cursors.SSCursor) # ✓ 流式 cursor.execute("SELECT * FROM huge_table") for row in cursor: # 逐行读取 process(row) # 处理完这一行，内存被回收 # 然后获取下一行 # 内存占用：恒定，只有当前行的大小 ``` #### 不同语言的流式实现 ```java // Java - JDBC Statement stmt = conn.createStatement( ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY ); stmt.setFetchSize(Integer.MIN_VALUE); // MySQL特殊值 ResultSet rs = stmt.executeQuery("SELECT * FROM huge_table"); while (rs.next()) { process(rs); } ``` ```go // Go - database/sql（默认就是流式） rows, err := db.Query("SELECT * FROM huge_table") defer rows.Close() for rows.Next() { var data SomeStruct rows.Scan(&data) process(data) } ``` ### 5.4 重要总结 ``` Buffer Pool的角色澄清： ✓ 参与：数据读取和准备阶段 - 从磁盘加载数据页 - 提供数据给Server层处理 ✗ 不参与：数据传输阶段 - 不是网络传输的通道 - 不是客户端接收的缓冲区数据流向：磁盘 → Buffer Pool（暂存） → Server层（提取并处理行数据） → net_buffer（打包） → 网络（传输） → 客户端（接收） Buffer Pool是"工作台"，不是"传送带" ``` --- ## 6. 写操作与Buffer Pool ### 6.1 UPDATE操作的完整流程 ```sql UPDATE users SET age = 31 WHERE id = 10; ``` **执行步骤：** ``` Step 1: 读取数据到Buffer Pool ├─ 查找id=10所在的数据页 ├─ 如果不在Buffer Pool → 从磁盘加载 └─ 可能还需加载相关索引页 Step 2: 在Buffer Pool中修改数据 ├─ 直接在内存中修改age字段 ├─ 此时内存数据 ≠ 磁盘数据 └─ 这个页变成"脏页"（Dirty Page） Step 3: 写入Undo Log ⭐ ├─ 记录旧值：age = 30 ├─ 用于事务回滚 └─ 用于MVCC（其他事务读取历史版本） Step 4: 写入Redo Log ⭐ ├─ 记录物理修改："在Page X的偏移Y写入值Z" ├─ 先写入Redo Log Buffer（内存） ├─ 事务提交时刷到磁盘（ib_logfile） └─ 顺序I/O，速度快 Step 5: 事务提交 ├─ Redo Log持久化到磁盘 ├─ 向客户端返回"成功" └─ 此时.ibd数据文件可能还没更新！ Step 6: 后台异步刷脏 ├─ Page Cleaner线程定期工作 ├─ 将脏页写入磁盘（.ibd文件） └─ 推进Checkpoint ``` ### 6.2 WAL机制（Write-Ahead Logging） ``` 核心思想：先写日志，再写数据优势： ┌─────────────────────────────────────────┐ │ 1. 内存操作代替磁盘操作 │ │ - 修改在Buffer Pool中完成（快） │ │ │ │ 2. 顺序I/O代替随机I/O │ │ - 写Redo Log是顺序写（快） │ │ - 写数据文件是随机写（慢） │ │ │ │ 3. 批量写入提高效率 │ │ - 多个修改积累后一次性刷盘 │ │ - 减少I/O次数 │ │ │ │ 4. 快速响应客户端 │ │ - Redo Log落盘即可返回成功 │ │ - 用户感知延迟低 │ └─────────────────────────────────────────┘ ``` ### 6.3 Change Buffer优化 ``` 针对非唯一二级索引的特殊优化：场景： UPDATE users SET city = 'Shanghai' WHERE id = 10; -- city字段上有非唯一索引传统流程： 1. 更新数据页（id=10的行） 2. 更新二级索引页（city索引） └─ 需要加载索引页到Buffer Pool（可能触发磁盘I/O） Change Buffer优化： 1. 更新数据页 2. 不立即更新索引页 3. 将"索引需要修改"这个信息记录在Change Buffer中 4. 等将来索引页被其他查询加载时，再合并（Merge）优势： - 避免了随机读索引页的磁盘I/O - 将多次索引修改合并成一次操作 - 适合写多读少的场景 ``` --- ## 7. 脏页管理与刷盘机制 ### 7.1 Buffer Pool的两个关键链表 ``` ┌─────────────────────────────────────────┐ │ InnoDB Buffer Pool │ ├─────────────────────────────────────────┤ │ │ │ LRU List（管理页面淘汰） │ │ ├─ Young区 │ │ │ ├─ 页A（干净） │ │ │ ├─ 页B（脏） ←┐ │ │ │ └─ 页C（脏） ←┼─┐ │ │ └─ Old区 │ │ │ │ ├─ 页D（干净） │ │ │ │ └─ 页E（脏） ←┼─┼─┐ │ │ │ │ │ │ │ Flush List（管理脏页刷盘） │ │ ├─ 页B (LSN=1000) ─┘ │ │ │ │ ├─ 页C (LSN=1050) ───┘ │ │ │ └─ 页E (LSN=1100) ─────┘ │ │ │ └─────────────────────────────────────────┘ ``` ### 7.2 刷脏的触发条件 ``` 条件1：脏页比例达到阈值 SHOW VARIABLES LIKE 'innodb_max_dirty_pages_pct%'; innodb_max_dirty_pages_pct = 75 -- 上限75% innodb_max_dirty_pages_pct_lwm = 10 -- 低水位10% 行为： 0% ────── 10% ────── 75% ────── 90% ────── 100% ↑ ↑ ↑ 开始温和加速刷脏疯狂刷脏刷脏可能阻塞条件2：Redo Log空间不足 - Redo Log是循环使用的（如2GB） - 只有对应的脏页刷盘后，Redo Log空间才能重用 - 如果Redo Log快写满 → 必须刷脏推进Checkpoint 条件3：Buffer Pool空间不足 - 需要淘汰页面但都是脏页 - 必须同步刷脏（阻塞用户操作）条件4：定期刷新 - 后台线程每秒检查一次 - 温和地刷一部分脏页 ``` ### 7.3 Page Cleaner线程 ```python # 伪代码：Page Cleaner的工作逻辑 while True: # 1. 检查脏页比例 dirty_ratio = get_dirty_pages_ratio() # 2. 检查Redo Log使用情况 redo_usage = get_redo_log_usage() # 3. 决定刷脏强度 if redo_usage > 90%: flush_mode = 'AGGRESSIVE' # 激进模式 pages_to_flush = 1000 elif dirty_ratio > 75%: flush_mode = 'ACTIVE' # 活跃模式 pages_to_flush = 500 elif dirty_ratio > 10%: flush_mode = 'GENTLE' # 温和模式 pages_to_flush = 100 else: sleep(1) continue # 4. 从Flush List获取最老的脏页 pages = get_oldest_dirty_pages(pages_to_flush) # 5. 刷盘 for page in pages: flush_page_to_disk(page) mark_as_clean(page) advance_checkpoint() sleep(interval) ``` ### 7.4 脏页与全表扫描 ``` 问题：全表扫描会淘汰脏页吗？保护机制： 1. Redo Log是根本保证 - 脏页即使被淘汰，数据也不会丢 - 崩溃后通过Redo Log可以恢复 2. 优先淘汰干净页 - LRU淘汰时，优先选择干净页 - 脏页需要先刷盘才能淘汰 3. 控制脏页比例 - 脏页比例超过阈值 → 加速刷脏 - 确保始终有足够的干净页可淘汰 4. 同步刷脏（最后手段） - 如果实在没有干净页可淘汰 - 同步刷脏（阻塞查询） - 性能下降，但数据安全结论：性能可以牺牲，数据绝不能丢！ ``` ### 7.5 监控脏页 ```sql -- 查看脏页情况 SHOW ENGINE INNODB STATUS\G -- 关键指标： Modified db pages: 45678 -- 当前脏页数 Buffer pool size: 524288 -- 总页数脏页比例 = 45678 / 524288 ≈ 8.7% Pages flushed up to: 1234567890 -- Checkpoint LSN Log sequence number: 1234600000 -- 当前LSN 未刷脏的Redo Log = 1234600000 - 1234567890 = 32110 Pending writes: LRU: 5 -- LRU淘汰等待刷脏的页 flush list: 10 -- Flush List等待刷脏的页 ``` --- ## 8. 大批量更新的挑战与解决方案 ### 8.1 全表更新的问题 ```sql -- 危险操作 UPDATE huge_table SET status = 1 WHERE category = 'old'; -- 假设匹配80GB数据，Buffer Pool只有8GB ``` **面临的挑战：** ``` 挑战1：脏页爆炸 - 修改产生大量脏页 - 脏页比例快速上升 → 触发疯狂刷脏 - 可能导致周期性卡顿挑战2：Redo Log空间限制 ⭐ 最严重 - Redo Log总大小有限（如2GB） - 80GB的修改会产生大量Redo Log - Redo Log空间用完 → 必须等待刷脏 → 阻塞 - 性能严重下降挑战3：Undo Log膨胀 - 需要保存所有旧值以支持回滚 - 80GB修改可能产生80GB Undo Log - 占用磁盘空间，影响查询性能挑战4：锁等待 - 如果是一个大事务，所有修改的行都被锁定 - 其他查询可能被阻塞 - 超时或死锁风险挑战5：回滚噩梦 - 如果UPDATE执行到一半失败 - 回滚可能比更新本身还慢 - 可能需要几小时 ``` ### 8.2 分批更新方案 #### 方案1：按主键分批 ```sql -- ✓ 推荐 -- 第一批 UPDATE huge_table SET status = 1 WHERE category = 'old' AND id BETWEEN 1 AND 100000; COMMIT; -- 暂停1秒 -- 让系统刷脏、清理Redo Log -- 第二批 UPDATE huge_table SET status = 1 WHERE category = 'old' AND id BETWEEN 100001 AND 200000; COMMIT; -- 继续... ``` #### 方案2：使用LIMIT ```sql -- 循环执行，直到affected_rows = 0 UPDATE huge_table SET status = 1 WHERE category = 'old' LIMIT 10000; -- 每次只更新1万行 ``` #### 方案3：应用层控制 ```python import pymysql import time conn = pymysql.connect(host='localhost', user='root', db='test') cursor = conn.cursor() batch_size = 100000 start_id = 0 while True: sql = """ UPDATE huge_table SET status = 1 WHERE category = 'old' AND id BETWEEN %s AND %s """ cursor.execute(sql, (start_id, start_id + batch_size)) affected = cursor.rowcount conn.commit() # 每批都提交，变成小事务 print(f"Updated {affected} rows") if affected == 0: break start_id += batch_size + 1 time.sleep(0.5) # 暂停500ms，让系统喘口气 ``` ### 8.3 优化配置（大批量更新场景） ```sql -- 增大Redo Log（MySQL 8.0.30+） SET GLOBAL innodb_redo_log_capacity = 8G; -- 增大I/O容量（告诉InnoDB磁盘的IOPS能力） SET GLOBAL innodb_io_capacity = 2000; -- 正常 SET GLOBAL innodb_io_capacity_max = 4000; -- 峰值 -- 增加Page Cleaner线程数 SET GLOBAL innodb_page_cleaners = 8; -- 降低脏页上限（更积极刷脏） SET GLOBAL innodb_max_dirty_pages_pct = 50; ``` ### 8.4 监控长事务 ```sql -- 查找运行时间过长的事务 SELECT trx_id, trx_started, TIMESTAMPDIFF(SECOND, trx_started, NOW()) AS duration_sec, trx_rows_modified, trx_isolation_level, trx_state FROM information_schema.INNODB_TRX WHERE TIMESTAMPDIFF(SECOND, trx_started, NOW()) > 60 ORDER BY trx_started; -- 如果发现长事务，考虑kill掉 KILL <trx_mysql_thread_id>; ``` --- ## 9. Redo Log：崩溃恢复的保障 ### 9.1 Redo Log的本质 **Redo Log是物理日志，记录数据页的字节级修改。** ``` Redo Log不记录： ❌ SQL语句："UPDATE users SET age=31 WHERE id=10" ❌ 逻辑修改："第10行的age字段从30改成31" Redo Log记录： ✓ 物理修改："在表空间5的第1234号数据页的偏移量567处，写入2字节数据0x001F（十进制31）" ``` ### 9.2 一条UPDATE生成多少Redo Log？ ```sql UPDATE users SET age = age + 1 WHERE city = 'Beijing'; -- 假设匹配10万行 ``` **生成过程：** ``` 对每一行的修改： ┌────────────────────────────────────┐ │ Mini-Transaction (MTR) #1 │ ├────────────────────────────────────┤ │ - Redo: 修改Page 100, offset 200 │ │ - Redo: 更新Page 100的页头 │ │ - Redo: 写入Undo Log（也产生Redo）│ └────────────────────────────────────┘ ┌────────────────────────────────────┐ │ Mini-Transaction (MTR) #2 │ ├────────────────────────────────────┤ │ - Redo: 修改Page 100, offset 300 │ │ - Redo: 更新Page 100的页头 │ │ - Redo: 写入Undo Log │ └────────────────────────────────────┘ ... 重复10万次 ... 总Redo Log量估算： - 10万行 × 30字节/行 ≈ 3MB - 加上索引、Undo等 ≈ 5-10MB ``` ### 9.3 Redo Log的结构 ``` ┌────────────────────────────────────┐ │ Redo Log Record │ ├────────────────────────────────────┤ │ Type: MLOG_WRITE_STRING │ │ Space ID: 5 │ │ Page Number: 1234 │ │ Offset: 567 │ │ Length: 2 │ │ Data: 0x001F │ └────────────────────────────────────┘ ``` **常见类型：** ```c MLOG_1BYTE // 修改1字节 MLOG_2BYTES // 修改2字节 MLOG_4BYTES // 修改4字节 MLOG_WRITE_STRING // 写入字节串 MLOG_REC_INSERT // 插入记录 MLOG_REC_UPDATE_IN_PLACE // 原地更新 MLOG_REC_DELETE // 删除记录 ``` ### 9.4 Redo Log的循环使用 ``` ┌──────────────────────────────────────┐ │ Redo Log Files (如2GB) │ ├──────────────────────────────────────┤ │ │ │ ib_logfile0 (1GB) │ │ ib_logfile1 (1GB) │ │ │ │ 循环写入： │ │ ┌─────────────────────────────────┐│ │ │[已刷脏可覆盖][新写入][待刷脏] ││ │ │ ↑ ││ │ │ Write Pos ││ │ │ ↑ ││ │ │ Checkpoint（已刷脏的位置） ││ │ └─────────────────────────────────┘│ │ │ │ 关键：只有脏页刷盘后， │ │ Checkpoint才能推进， │ │ Redo Log空间才能重用 │ └──────────────────────────────────────┘ ``` ### 9.5 Redo Log与崩溃恢复 ``` 崩溃恢复流程： 1. MySQL启动，检测到上次未正常关闭 2. 读取Redo Log，找到Checkpoint位置 3. 从Checkpoint开始重放（Replay）Redo Log ├─ 读取每条Redo Log记录 ├─ 根据Space ID找到表空间文件 ├─ 根据Page Number定位数据页 ├─ 根据Offset和Data重写数据 └─ 恢复所有已提交事务的修改 4. 通过Undo Log回滚未提交的事务 5. 恢复完成，数据库可用优势： - Redo Log是顺序写，重放也很快 - 物理日志，不依赖SQL执行环境 - 保证已提交事务的持久性（D） ``` ### 9.6 配置参数 ```sql -- 查看Redo Log配置 SHOW VARIABLES LIKE 'innodb_log%'; -- 关键参数： innodb_log_file_size = 1G -- 单个文件大小 innodb_log_files_in_group = 2 -- 文件数量 -- 总大小 = 1G × 2 = 2GB -- MySQL 8.0.30+可动态调整 SET GLOBAL innodb_redo_log_capacity = 8G; -- 刷盘策略（重要！） innodb_flush_log_at_trx_commit = 1 -- 0: 每秒刷一次（快，但可能丢失1秒数据） -- 1: 每次提交都刷（最安全，默认）⭐ -- 2: 每次提交写OS缓存，每秒fsync（折中） ``` --- ## 10. Binlog：复制与恢复 ### 10.1 Redo Log vs Binlog | 对比项 | Redo Log | Binlog | |--------|----------|--------| | **层面** | InnoDB引擎层 | MySQL Server层 | | **格式** | 物理日志 | 逻辑日志（可配置） | | **内容** | 页的物理修改 | SQL语句或行变更 | | **用途** | 崩溃恢复 | 主从复制、备份恢复 | | **大小** | 固定，循环使用 | 不断增长，可归档 | | **刷盘** | 事务提交时 | 事务提交时（可配置） | ### 10.2 Binlog的三种格式 #### STATEMENT格式 ```sql -- Binlog记录SQL语句本身 BEGIN; UPDATE users SET age = age + 1 WHERE city = 'Beijing'; COMMIT; 优点： ✓ Binlog文件小 ✓ 可读性好缺点： ✗ 非确定性函数（NOW(), RAND(), UUID()）可能导致主从不一致 ✗ LIMIT无ORDER BY可能导致不一致 ✗ 已不推荐使用 ``` #### ROW格式（推荐）⭐ ```sql -- Binlog记录每一行的实际变更 BEGIN; -- 记录的是变更前后的镜像 Table_map: users Update_rows: Before: {id:1, name:'Tom', age:30} After: {id:1, name:'Tom', age:31} Update_rows: Before: {id:2, name:'Jerry', age:25} After: {id:2, name:'Jerry', age:26} ... COMMIT; 优点： ✓ 最安全，绝对保证主从一致 ✓ 不受SQL执行环境影响 ✓ MySQL 5.7.7+默认格式缺点： ✗ Binlog文件较大（尤其大批量更新） ✗ 可读性差 ``` #### MIXED格式 ```sql -- 自动选择STATEMENT或ROW 安全的SQL → STATEMENT格式（文件小）不安全的SQL → ROW格式（数据一致）例如： UPDATE users SET name = 'Alice' WHERE id = 1; → STATEMENT格式 UPDATE users SET update_time = NOW() WHERE id = 1; → ROW格式（NOW()不确定） ``` ### 10.3 非幂等操作的处理 ```sql -- 问题：NOW()等函数在不同时间执行结果不同 UPDATE users SET last_update = NOW() WHERE id = 1; ``` **STATEMENT格式的处理：** ```sql -- Binlog实际记录： SET TIMESTAMP = 1716343200; -- ⭐ 记录主库的时间戳 UPDATE users SET last_update = NOW() WHERE id = 1; -- 从库应用时： -- 1. 先执行SET TIMESTAMP -- 2. 再执行UPDATE，NOW()使用设定的时间戳 -- 结果：主从一致 ``` **ROW格式的处理（更彻底）：** ```sql -- Binlog记录： Table_map: users Update_rows: Before: {id:1, last_update:'2024-05-20 10:00:00'} After: {id:1, last_update:'2024-05-22 15:30:45'} -- 已计算好的值 -- 从库直接应用After值，无需重新计算NOW() -- 天然保证一致性 ``` ### 10.4 配置Binlog ```sql -- 查看Binlog配置 SHOW VARIABLES LIKE 'log_bin%'; SHOW VARIABLES LIKE 'binlog%'; -- 关键参数： log_bin = ON -- 启用Binlog binlog_format = ROW -- 格式（推荐ROW）⭐ sync_binlog = 1 -- 每次提交都刷盘（最安全） binlog_cache_size = 32K -- 事务Binlog缓存 max_binlog_size = 1G -- 单个Binlog文件最大1GB -- 查看Binlog文件 SHOW BINARY LOGS; SHOW MASTER STATUS; ``` ### 10.5 主从复制中的应用 ``` 主库（Master）： 1. 执行UPDATE 2. 写入Redo Log（InnoDB） 3. 写入Binlog（Server层） 4. 两阶段提交（2PC）保证一致性 5. 返回客户端成功从库（Slave）： 1. I/O线程从主库拉取Binlog 2. 写入本地Relay Log 3. SQL线程读取Relay Log 4. 重放（Replay）操作 ├─ ROW格式：直接应用行变更 └─ STATEMENT格式：重新执行SQL 5. 数据同步完成 ``` --- ## 11. Undo Log与MVCC机制 ### 11.1 为什么没开事务也有Undo Log？ **两大用途：** ``` 1. 事务回滚（Transaction Rollback） - 记录修改前的旧值 - ROLLBACK时恢复数据 2. MVCC（Multi-Version Concurrency Control）⭐ 更重要 - 为其他事务提供数据的历史版本 - 实现一致性读（快照读） - 支持不同隔离级别 ``` ### 11.2 隐式事务 ```sql -- 即使没有显式BEGIN，MySQL也会创建事务 -- 查看自动提交 SHOW VARIABLES LIKE 'autocommit'; -- autocommit = ON（默认） -- 执行UPDATE UPDATE users SET age = 30 WHERE id = 1; -- MySQL内部实际执行： BEGIN; -- 隐式开启 UPDATE users SET age = 30 WHERE id = 1; ├─ 生成Undo Log（旧值age=29） └─ 生成Redo Log（新值age=30） COMMIT; -- 隐式提交 -- 所以："没有开启事务"这个说法不存在 ``` ### 11.3 MVCC的核心机制 #### 隐藏字段 ``` 用户看到的数据： ┌────┬──────┬─────┐ │ id │ name │ age │ ├────┼──────┼─────┤ │ 1 │ Tom │ 30 │ └────┴──────┴─────┘ 实际存储（含隐藏字段）： ┌────┬──────┬─────┬───────────┬────────────┬───────────┐ │ id │ name │ age │ DB_TRX_ID │ DB_ROLL_PTR│ DB_ROW_ID │ ├────┼──────┼─────┼───────────┼────────────┼───────────┤ │ 1 │ Tom │ 30 │ 100 │ 0x12AB... │ (自增) │ └────┴──────┴─────┴───────────┴────────────┴───────────┘ ↑ ↑ 最后修改的事务ID 指向Undo Log的指针 ``` #### 版本链 ``` 当前数据（最新版本）： ┌────────────────────────────────┐ │ age=30, TRX_ID=100 │ │ ROLL_PTR ─────┐ │ └───────────────┼───────────────┘ ↓ Undo Log (版本2) ┌───────────────────────┐ │ age=29, TRX_ID=98 │ │ ROLL_PTR ─────┐ │ └───────────────┼───────┘ ↓ Undo Log (版本1) ┌──────────────────┐ │ age=25, TRX_ID=95│ │ ROLL_PTR = NULL │ └──────────────────┘ 通过ROLL_PTR形成版本链 ``` #### Read View ``` 事务开始时（或第一次SELECT），创建Read View： ┌───────────────────────────────────┐ │ Read View │ ├───────────────────────────────────┤ │ m_ids: [97, 99, 101] │ 当前活跃事务列表 │ min_trx_id: 97 │ 最小活跃事务ID │ max_trx_id: 102 │ 下一个要分配的事务ID │ creator_trx_id: 99 │ 创建此视图的事务ID └───────────────────────────────────┘ ``` #### 可见性判断 ```python def is_visible(data_trx_id, read_view): # 1. 很早之前提交的 if data_trx_id < read_view.min_trx_id: return True # 可见 # 2. 未来的事务（在Read View创建之后） if data_trx_id >= read_view.max_trx_id: return False # 不可见 # 3. 在活跃事务列表中 if data_trx_id in read_view.m_ids: if data_trx_id == read_view.creator_trx_id: return True # 自己的修改可见 else: return False # 其他活跃事务的修改不可见 # 4. 不在活跃列表，说明已提交 return True ``` #### 读取流程 ``` 会话B要读取id=1的数据： 1. 获取当前行的最新版本 age=30, TRX_ID=100 2. 用Read View判断可见性 is_visible(100, read_view) → False 3. 顺着ROLL_PTR找Undo Log中的上一版本 age=29, TRX_ID=98 4. 再次判断 is_visible(98, read_view) → True 5. 返回 age=29 ``` ### 11.4 MVCC实战 ```sql -- 准备数据 CREATE TABLE test (id INT PRIMARY KEY, value INT); INSERT INTO test VALUES (1, 100); -- 会话A SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ; BEGIN; SELECT value FROM test WHERE id = 1; -- 结果：100 -- 此时创建Read View -- 会话B UPDATE test SET value = 200 WHERE id = 1; -- 生成Undo Log：{id:1, value:100} -- 立即提交（autocommit=1） -- 回到会话A SELECT value FROM test WHERE id = 1; -- 结果：仍然是100！ -- 因为会话B的事务ID对会话A的Read View不可见 -- 从Undo Log读取了旧版本 COMMIT; -- 新事务 BEGIN; SELECT value FROM test WHERE id = 1; -- 结果：200（新Read View能看到已提交的修改） ``` ### 11.5 Undo Log的清理（Purge） ``` 生命周期： ┌─────────────────────────────────────┐ │ 1. 事务修改数据 → 生成Undo Log │ │ 2. 事务提交 → 标记为"可清理" │ │ 3. Purge线程检查： │ │ - 是否有活跃Read View需要它？ │ │ - 检查所有活跃事务的Read View │ │ 4. 所有Read View都不需要 │ │ → 物理删除Undo Log │ └─────────────────────────────────────┘ 长事务的危害： - 占着Read View不释放 - 导致大量Undo Log无法清理 - History List Length不断增长 - 查询需要遍历很长的版本链 - 性能下降 ``` **监控Undo：** ```sql SHOW ENGINE INNODB STATUS\G -- 关键指标： History list length: 1234 -- 值很大说明有大量未清理的Undo Log -- 查找长事务 SELECT trx_id, trx_started, TIMESTAMPDIFF(SECOND, trx_started, NOW()) AS duration, trx_rows_modified FROM information_schema.INNODB_TRX WHERE TIMESTAMPDIFF(SECOND, trx_started, NOW()) > 60; ``` --- ## 12. 事务隔离级别详解 ### 12.1 MySQL支持的四个隔离级别 ```sql -- 查看当前隔离级别 SELECT @@transaction_isolation; -- MySQL默认：REPEATABLE-READ ``` | 隔离级别 | 脏读 | 不可重复读 | 幻读 | 性能 | |---------|------|-----------|------|------| | READ UNCOMMITTED | ✗ | ✗ | ✗ | ⭐⭐⭐⭐⭐ | | READ COMMITTED | ✓ | ✗ | ✗ | ⭐⭐⭐⭐ | | REPEATABLE READ | ✓ | ✓ | ✓* | ⭐⭐⭐ | | SERIALIZABLE | ✓ | ✓ | ✓ | ⭐ | *注：MySQL的REPEATABLE READ通过MVCC和Next-Key Lock基本解决了幻读。 ### 12.2 READ UNCOMMITTED（读未提交） **问题：脏读** ```sql -- 会话A BEGIN; UPDATE accounts SET balance = 900 WHERE id = 1; -- 未提交 -- 会话B SET SESSION TRANSACTION ISOLATION LEVEL READ UNCOMMITTED; BEGIN; SELECT balance FROM accounts WHERE id = 1; -- 读到900（脏读！） -- 会话A回滚 ROLLBACK; -- 会话B读到的数据是错误的 ``` **使用场景：几乎不用** ### 12.3 READ COMMITTED（读已提交） **特点：** - 只能读到已提交的数据（解决脏读） - 每次SELECT创建新的Read View **问题：不可重复读** ```sql -- 会话A SET SESSION TRANSACTION ISOLATION LEVEL READ COMMITTED; BEGIN; SELECT balance FROM accounts WHERE id = 1; -- 第一次：1000 -- 会话B UPDATE accounts SET balance = 900 WHERE id = 1; COMMIT; -- 会话A（同一事务内） SELECT balance FROM accounts WHERE id = 1; -- 第二次：900（不可重复读） ``` **使用场景：** - 高并发互联网应用 - 阿里巴巴部分业务 - 需要读最新数据的场景 ### 12.4 REPEATABLE READ（可重复读）⭐ **MySQL默认隔离级别** **特点：** - 保证同一事务内多次读取结果一致 - 事务开始时创建Read View（或首次SELECT） - 通过MVCC实现 **基本解决幻读：** ```sql -- 快照读（无幻读） BEGIN; SELECT * FROM test; -- 3条记录 -- 另一会话插入数据并提交 -- INSERT INTO test VALUES (4, 40); SELECT * FROM test; -- 仍然3条记录（通过MVCC，读取快照） -- 当前读（加锁防幻读） SELECT * FROM test WHERE id > 0 FOR UPDATE; -- 使用Next-Key Lock锁定范围 -- 其他会话无法在范围内插入 ``` **Next-Key Lock机制：** ``` Next-Key Lock = Record Lock + Gap Lock 例如索引值：1, 5, 10 SELECT * FROM test WHERE id > 5 FOR UPDATE; 锁定范围： - (5, 10] - Next-Key Lock - (10, +∞) - Gap Lock 效果：其他事务无法在(5, +∞)范围内插入 ``` **使用场景：** - 大多数OLTP业务（默认） - 转账、订单处理等 ### 12.5 SERIALIZABLE（串行化） **特点：** - 最高隔离级别 - 所有SELECT自动变成SELECT ... LOCK IN SHARE MODE - 完全串行化 ```sql -- 会话A SET SESSION TRANSACTION ISOLATION LEVEL SERIALIZABLE; BEGIN; SELECT * FROM accounts WHERE id = 1; -- 自动加共享锁（S锁） -- 会话B UPDATE accounts SET balance = 900 WHERE id = 1; -- 被阻塞（等待会话A释放S锁） ``` **锁互斥关系：** ``` S锁 X锁 S锁 ✓ ✗ X锁 ✗ ✗ 导致大量阻塞，性能极差 ``` **使用场景：** - 极少使用 - 金融核心账务 - 关键报表生成 ### 12.6 隔离级别的设置 ```sql -- 全局设置（新连接生效） SET GLOBAL transaction_isolation = 'READ-COMMITTED'; -- 会话级设置 SET SESSION transaction_isolation = 'READ-COMMITTED'; -- 单个事务设置 SET TRANSACTION ISOLATION LEVEL READ COMMITTED; BEGIN; -- 只影响这个事务 COMMIT; -- 配置文件（永久） [mysqld] transaction-isolation = READ-COMMITTED ``` ### 12.7 不同数据库的默认值 ``` MySQL/InnoDB: REPEATABLE READ Oracle: READ COMMITTED PostgreSQL: READ COMMITTED SQL Server: READ COMMITTED SQLite: SERIALIZABLE ``` **MySQL选择REPEATABLE READ的历史原因：** ``` 早期MySQL的Binlog只支持STATEMENT格式 - STATEMENT在READ COMMITTED下可能导致主从不一致 - 例如：UPDATE ... LIMIT无ORDER BY 主库和从库可能选中不同的行 REPEATABLE READ + 间隙锁可避免这个问题现代MySQL（5.1+）： - Binlog支持ROW格式（推荐） - ROW格式不受隔离级别影响 - 理论上可改用READ COMMITTED - 但为兼容性，仍保持REPEATABLE READ为默认 ``` --- ## 总结：知识体系图 ``` MySQL存储与事务机制 │ ├─ 存储层 │ ├─ 磁盘存储（.ibd文件） │ │ └─ 数据页和索引页的永久存储 │ │ │ └─ 内存缓存（Buffer Pool）⭐ │ ├─ 热点数据页缓存 │ ├─ 改进的LRU算法（Young/Old区） │ ├─ 脏页管理（Flush List） │ └─ Change Buffer优化 │ ├─ 读操作 │ ├─ 全表扫描的滚动读取 │ ├─ Buffer Pool的工作台角色 │ ├─ 数据传输（磁盘→Buffer Pool→Server→网络→客户端） │ └─ 客户端流式读取的重要性 │ ├─ 写操作 │ ├─ WAL机制（Write-Ahead Logging） │ ├─ Buffer Pool中修改（产生脏页） │ ├─ Undo Log生成（支持回滚和MVCC） │ ├─ Redo Log生成（崩溃恢复保障） │ ├─ Binlog生成（复制和备份） │ ├─ 后台异步刷脏 │ └─ 大批量更新的分批策略 │ ├─ 日志系统 │ ├─ Redo Log（物理日志，InnoDB层） │ │ ├─ 记录数据页的物理修改 │ │ ├─ 循环使用，固定大小 │ │ ├─ 支持崩溃恢复 │ │ └─ 顺序I/O，性能优秀 │ │ │ ├─ Binlog（逻辑日志，Server层） │ │ ├─ STATEMENT/ROW/MIXED格式 │ │ ├─ 支持主从复制 │ │ ├─ 支持备份恢复 │ │ └─ 处理非幂等操作 │ │ │ └─ Undo Log（逻辑日志，InnoDB层） │ ├─ 支持事务回滚 │ ├─ 支持MVCC（更重要） │ ├─ 形成版本链 │ └─ Purge线程清理 │ └─ 事务机制 ├─ MVCC（多版本并发控制） │ ├─ 隐藏字段（TRX_ID, ROLL_PTR） │ ├─ Read View │ ├─ 版本链 │ └─ 可见性判断 │ └─ 隔离级别 ├─ READ UNCOMMITTED（几乎不用） ├─ READ COMMITTED（高并发场景） ├─ REPEATABLE READ（MySQL默认）⭐ │ ├─ MVCC实现 │ ├─ Next-Key Lock │ └─ 基本解决幻读 └─ SERIALIZABLE（极少使用） ``` --- ## 快速复习检查清单 ### 核心概念 - [ ] Buffer Pool是什么？作用是什么？ - [ ] 索引和数据最终存储在哪里？ - [ ] 热点数据如何识别？（LRU算法） - [ ] 脏页是什么？如何管理？ ### 读操作 - [ ] 全表扫描时Buffer Pool如何工作？ - [ ] 数据如何从磁盘到达客户端？ - [ ] Buffer Pool参与数据传输吗？ - [ ] 客户端的两种读取模式是什么？ ### 写操作 - [ ] UPDATE操作的完整流程？ - [ ] WAL机制是什么？有什么优势？ - [ ] Change Buffer的作用？ - [ ] 大批量更新为什么要分批？ ### 日志系统 - [ ] Redo Log记录什么？格式是什么？ - [ ] Binlog的三种格式及其区别？ - [ ] 如何处理NOW()等非幂等操作？ - [ ] Undo Log的双重用途？ - [ ] 三种日志的区别和联系？ ### 事务机制 - [ ] MVCC的核心机制？ - [ ] 四个隔离级别及其特点？ - [ ] MySQL默认隔离级别是什么？为什么？ - [ ] 如何解决幻读问题？ - [ ] 长事务的危害？ ### 性能调优 - [ ] 如何监控Buffer Pool命中率？ - [ ] 如何监控脏页比例？ - [ ] 如何发现长事务？ - [ ] 全表扫描如何优化？ - [ ] 大批量更新的最佳实践？ --- ## 关键配置参数速查 ```sql -- Buffer Pool innodb_buffer_pool_size = 24G -- 核心参数，建议物理内存50-80% innodb_old_blocks_pct = 37 -- Old区占比 innodb_old_blocks_time = 1000 -- Old区停留时间(ms) -- 脏页管理 innodb_max_dirty_pages_pct = 75 -- 脏页上限 innodb_max_dirty_pages_pct_lwm = 10 -- 低水位 innodb_page_cleaners = 4 -- Page Cleaner线程数 innodb_io_capacity = 2000 -- I/O能力 innodb_io_capacity_max = 4000 -- 最大I/O能力 -- Redo Log innodb_redo_log_capacity = 8G -- MySQL 8.0.30+ innodb_log_file_size = 1G -- 旧版本 innodb_log_files_in_group = 2 -- 旧版本 innodb_flush_log_at_trx_commit = 1 -- 刷盘策略（1最安全） -- Binlog log_bin = ON binlog_format = ROW -- 推荐ROW格式 sync_binlog = 1 -- 每次提交刷盘 -- 事务 transaction_isolation = REPEATABLE-READ -- 默认隔离级别 autocommit = ON -- 自动提交 -- 网络 net_buffer_length = 16384 -- 16KB max_allowed_packet = 64M -- 最大包大小 ```

11/14/2025

Elasticsearch 读写原理指南

### 1. 什么是 segment，里面装了什么？

在 Lucene（也是 Elasticsearch）里，索引被切分成若干 **segment（段）**，每个 segment 是一个完整的、只读的倒排索引单元。一个 segment 包含：

* **倒排词典** —— 用 **FST（Finite‑State Transducer）** 以高度压缩的形式保存每个字段出现的所有 term 以及 term→ord 的映射。对应的磁盘文件是 `*.tim`（新版）或 `*.tis/*.tii`（旧版）。

* **倒排列表（postings）** —— 保存每个 term 出现的文档 ID、频次、位置信息等，文件名通常是 `*.doc`、`*.pos`、`*.pay`。

* **存储字段**（_source、store:true 的字段）—— 以二进制块的形式写入 `*.fdt` / `*.fdx`。

* **doc‑values、norms、向量** 等辅助结构，分别保存在 `*.dv`、`*.norm`、`*.tv` 等文件里。

* **deleted‑docs bitmap**（`*.del`），标记哪些文档已被删除或被更新。

所有这些文件在 segment **写入磁盘后即成为只读**，后续的查询只能读取，永远不会在原文件上进行增删改。

---

### 2. 原始文档和 FST 为什么都在 segment 里？

* **原始文档**：Elasticsearch 默认把完整的 JSON（_source）以及任何 `store:true` 的字段写入 segment 的 `*.fdt/*.fdx` 文件。每个 segment 保存自己的那部分文档，旧的 segment 在合并前仍然保留，直到合并后被删除。

* **FST**：每个字段的词典在每个 segment 中单独维护，采用 FST 进行前缀共享和字节压缩。这样即使同一个 term 在多个 segment 中出现，也会在每个 segment 里拥有独立的映射，查询时只需要在对应 segment 的 FST 中定位即可。

---

### 3. 查询时到底是怎么遍历 segment 的？

1. **请求入口**

客户端的搜索请求先到达 **协调节点**，协调节点把请求 **广播** 给所有目标 **shard（主分片或副本分片）**。每个 shard 在所在机器上独立执行搜索。

2. **在单个 shard 内部**

*Elasticsearch* 为该 shard 创建一个 `IndexSearcher`，内部通过 `DirectoryReader` 把 **该 shard 当前所有活跃的 segment** 包装成一个 `MultiReader`。

接下来，搜索线程会遍历 `MultiReader` 的每个 `LeafReaderContext`（即每个 segment），对每个 segment 执行相同的查询逻辑。

3. **在每个 segment 上的具体步骤**

* 对目标字段的 FST（`TermsEnum`）执行 `seekExact(term)`，这一步只读取极少的 FST 节点，成本在微秒级。

* 如果 FST 表明该 term 不在此 segment，直接返回空，不会读取倒排列表。

* 如果 term 存在，则通过 `postingsEnum` 读取该 term 在本 segment 中的所有 doc‑id、频次、位置信息，计算得分并产生局部 Top‑K。

* 最后，`IndexSearcher` 用 `TopDocsMerger` 把所有 segment 的局部结果合并成全局的 Top‑K/聚合结果，返回给协调节点。

4. **结果合并**

协调节点把各 shard（包括副本）返回的局部结果进行全局排序、去重或二次聚合，最终将结果返回给客户端。

> **要点**：查询并不是一次性遍历所有文档，而是 **对每个 segment 的只读 FST 进行一次快速定位**，只有真正匹配的 segment 才会进一步读取倒排列表。

---

### 4. 为什么说 segment 是不可变的？

* **写入阶段（flush/refresh）**：当 RAM 缓冲区满或达到 `refresh_interval` 时，Elasticsearch 把内存中的倒排结构一次性写入磁盘，生成新 segment。此时所有文件（包括已经压缩好的 FST）被 **一次性写完并关闭**，之后不再修改。

* **删除**：只在对应 segment 的 `*.del` 位图里标记，不会改动 FST、postings 等文件。

* **更新**：实际上是 **delete + index**，旧 segment 仍保持不变，新文档写入一个 **全新的 segment**（带新的 FST）。

* **合并（merge）**：后台读取若干小 segment，**重新构造一个更大的 segment**（包括重新生成的 FST），写入新文件后再删除旧文件。整个过程始终是 “写新、删旧”，从不在已有文件上就地修改。

因此，**segment 的不可变性指的是磁盘文件一旦生成后就只读**，所有的“变动”都是通过生成新的文件来实现的。

---

### 5. Term 查询的实际表现——是否真的要遍历所有 segment？

是的，**每个活跃的 segment 都会被检查一次**，但检查的成本极低：

* **FST 查找**：只读取少量字节，几乎是常数时间。如果 term 不在该 segment，立刻返回空。

* **倒排列表读取**：仅在 term 实际出现的 segment 中进行，读取量与该 term 在该 segment 中的文档数量成正比。

* **合并阶段**：只把每个 segment 的局部 Top‑K 合并，复杂度是 `O(k log S)`（k 为返回条数，S 为 segment 数），这在实际中几乎可以忽略。

所以，即便需要“遍历所有 segment”，对查询性能的影响主要取决于 **segment 的数量** 而不是每个 segment 的大小。

---

### 6. 写入速率低于刷新间隔会产生什么？

* **大量小 segment**：每次刷新只会把极少的文档写入一个新 segment，导致 **segment 数量激增**。这些小 segment 的 FST 也很小（几 KB），查询时仍然快速定位，但搜索器需要遍历更多的 leaf，CPU 开销会略有上升。

* **合并的必要性**：后台合并会把这些小 segment 合并成更大的 segment，重新生成一个更稠密、更高效的 FST，同时回收已经删除的文档占用的磁盘空间。

* **调优思路**：

- 延长 `index.refresh_interval`（让更多文档累计后一次性 flush），或者关闭自动刷新，仅在需要时手动刷新。

- 调整 `index.merge.policy.*` 参数，让合并更积极地把小 segment 合并成大 segment。

- 在低写入场景下，适当增大 `index.translog.flush_threshold_size`，让 translog 和刷新同步进行，避免频繁产生极小的 segment。

---

### 7. FST 的压缩到底发生在哪一步？

1. **首次写入（flush/refresh）**：当新 segment 被写入磁盘时，Lucene 的 `FSTBuilder` 把内存中的 term 集合一次性压缩成 FST 并写入 `*.tim`（或 `*.tis/*.tii`）文件。即使 segment 很小，这一步也已经完成了压缩，只是因为词条数量少，压缩率有限。

2. **合并阶段**：后台合并读取多个小 segment 的 FST，**重新构造一个统一的 FST**，在写入新 segment 时再次进行压缩。合并后的 FST 往往能获得更好的前缀共享，从而得到更高的压缩率。

> **因此**，FST 的压缩既在 **segment 创建时** 完成，也会在 **合并生成新 segment 时** 再次执行。两次压缩都是一次性写入，只是合并时得到的是更稠密、更高效的词典。

---

### 8. 副本与主分片的 segment 关系

每个 **副本 shard** 都拥有自己完整的 segment 集合，这些 segment 与主分片的内容相同，但是 **独立的文件拷贝**。查询时副本会自行遍历自己的 segment，提供横向扩展和高可用。合并、刷新、压缩等操作在每个副本上独立执行，只要副本与主分片的 segment 列表保持一致，搜索结果就一致。

---

### 9. 实际调优步骤（实战指南）

1. **观察当前 segment 状况**

- 使用 `GET /_cat/segments/<index>?v&h=index,shard,segment,num_docs,size` 查看每个 shard 上的 segment 数量和大小。

- 通过 `GET /<index>/_search?profile=true` 查看搜索时每个 segment 的耗时与命中数。

2. **如果发现大量小 segment**（多数 segment 只有几百 KB 或更小），可以从以下两方面入手：

- **延长刷新间隔**：`PUT <index>/_settings { "index.refresh_interval": "30s" }`（或 `-1` 关闭自动刷新，手动刷新）。

- **加速合并**：调大 `index.merge.policy.max_merge_at_once`、`segments_per_tier`，或在低峰期手动执行 `POST <index>/_forcemerge?max_num_segments=1`。

3. **控制写入与刷新节奏**

- 增大 `index.translog.flush_threshold_size`，让写入更多数据后才触发一次刷新。

- 对于批量写入（bulk），可以适当调高 `index.bulk.max_size`，一次性发送更多文档，减少刷新次数。

4. **监控合并进度**

- `GET /<index>/_stats?human&filter_path=indices.*.total.merge` 能看到当前正在进行的合并数量、已完成的大小等。

- 若合并长期滞后，检查 `index.merge.scheduler.max_thread_count` 是否被限制太低，适当提升。

5. **验证效果**

- 再次执行 `_cat/segments`，确认小 segment 已被合并为更大的 segment。

- 用 `profile` 再次跑一次查询，观察每个 segment 的搜索耗时是否明显下降。

---

### 10. 小结

* **Segment** 是只读、不可变的倒排索引块；每个 segment 包含自己的 **FST（倒排词典）**、倒排列表、存储字段等。

* **查询** 时，Elasticsearch 对每个 shard 的所有 segment 逐一执行 **FST 查找**，只有匹配的 segment 才继续读取倒排列表，最后把各 segment 的局部结果合并。

* **写入慢、刷新频繁** 会产生大量小 segment，导致搜索时遍历的 leaf 增多。通过 **延长刷新间隔、加快合并** 可以把这些小 segment 合并成更大的、压缩率更高的 segment。

* **FST 的压缩** 在 **segment 创建时** 已经完成，合并阶段会再次重新压缩，始终遵循“一次写入、只读使用”的不可变模型。

* **副本** 拥有独立的 segment 集合，查询时也会独立遍历其 segment，保证了横向扩展和高可用。

11/12/2025

elasticsearch写入数据的过程

好的，我们来详细拆解一下从客户端发送数据到Elasticsearch（ES）并最终写入成功的完整过程。

这个过程可以分为两个主要阶段：

1. **数据写入阶段**：让数据变得“安全”和“持久化”，并向客户端确认写入成功。

2. **数据可搜索阶段**：让刚刚写入的数据能够被搜索到。

让我们一步一步来看。

### 整体流程概览

上图是一个简化的流程图，下面是详细的文字步骤分解。

---

### 第一阶段：数据写入与持久化 (Write & Persist)

这个阶段的目标是快速、安全地将数据写入，并向客户端返回成功响应。

#### 第1步：客户端发送请求

你（客户端）构造一个索引请求，通常是一个 HTTP `POST` 或 `PUT` 请求。

例如，向 `my-index` 索引中写入一个 ID 为 `1` 的文档：

```bash

POST /my-index/_doc/1

{

"user": "kimchy",

"post_date": "2024-01-01T12:00:00",

"message": "trying out Elasticsearch"

}

```

这个请求会被发送到 Elasticsearch 集群中的 **任意一个节点**。

#### 第2步：协调节点（Coordinating Node）接收请求

集群中接收到这个请求的节点被称为 **协调节点**（Coordinating Node）。任何节点都可以扮演这个角色。

协调节点的主要职责是：

1. **确定数据应该去哪里**：它需要计算出这个文档应该被存储到哪个**主分片（Primary Shard）**上。

2. **路由请求**：将请求转发给持有该主分片的节点。

**路由算法：**

协调节点通过以下公式来确定目标分片：

```

shard = hash(routing_value) % num_primary_shards

```

- `routing_value`：默认情况下是文档的 `_id`（在这个例子中是 `"1"`）。你也可以在写入时手动指定一个 routing 值。

- `num_primary_shards`：索引的主分片数量。

这个公式确保了具有相同 `_id`（或相同 routing 值）的文档总是被路由到同一个分片，这对于后续的读取和更新操作至关重要。

#### 第3步：请求被路由到主分片所在的节点

协调节点根据计算结果，在集群状态（Cluster State）中查找哪个节点上存有目标主分片（比如，分片0在Node-A上），然后将原始请求转发给那个节点（Node-A）。

#### 第4步：主分片（Primary Shard）处理写入操作

现在，请求到达了真正负责写入的节点。主分片会执行以下关键操作：

1. **验证文档**：检查文档结构是否符合索引的映射（Mapping）。如果字段类型不匹配，可能会报错。

2. **写入内存缓冲区（In-memory Buffer）**：将文档数据写入一个内存中的缓冲区。这个操作非常快，因为是在内存中完成的。

3. **写入事务日志（Transaction Log / Translog）**：**同时**，将这次写入操作追加（append）到事务日志（Translog）文件中。Translog 是一个持久化在磁盘上的文件，类似于数据库的 redo log。

**为什么需要这两步？**

- **内存缓冲区**：为了提高写入性能。批量写入内存远比每次都直接写磁盘文件快。

- **Translog**：为了保证数据安全。如果在数据从内存缓冲区刷新（flush）到磁盘之前，节点发生崩溃或断电，重启后ES可以通过重放（replay）Translog 中的操作来恢复数据，确保数据不丢失。

**此时，客户端的写入请求在主分片上已经“安全”了。**

#### 第5步：并行将请求复制到副本分片（Replica Shards）

主分片完成写入后，会**并行地**将相同的写入请求转发给它所有的副本分片（Replica Shards）。

#### 第6步：副本分片处理写入操作

每个副本分片会执行与主分片几乎相同的操作：

1. 验证文档（通常副本会信任主分片的验证结果）。

2. 将数据写入自己的**内存缓冲区**。

3. 将操作记录追加到自己的**Translog**。

4. 完成后，向主分片发送一个“成功”确认。

#### 第7步：主分片等待确认并响应协调节点

主分片会等待副本分片的确认。默认情况下，它需要收到**法定数量（Quorum）**的副本确认后，才认为写入操作是真正成功的。

这个数量由 `index.write.wait_for_active_shards` 参数控制：

- `1` (默认值): 只要主分片写入成功即可，不等待任何副本。

- `all`: 必须所有副本（主分片+所有副本分片）都写入成功。

- 一个具体的数字 `N`: 至少有 `N` 个分片（包括主分片）处于活动状态并成功写入。

当主分片收到了足够数量的确认后，它会向**协调节点**发送一个“成功”响应。

#### 第8步：协调节点响应客户端

协调节点收到来自主分片的成功响应后，最后向客户端返回一个 HTTP `200 OK` 或 `201 Created` 的成功消息。

**至此，从客户端的角度看，数据写入已经成功并完成了！**

---

### 第二阶段：数据可搜索 (Making Data Searchable)

虽然客户端收到了成功响应，并且数据已经通过 Translog 持久化，但此时数据还**不能被搜索到**。因为它还在内存缓冲区里，并没有被构建成可供检索引擎（Lucene）使用的**段（Segment）**。

这个过程由两个独立的后台机制完成：**Refresh** 和 **Flush**。

#### Refresh（刷新）

- **作用**：将内存缓冲区中的文档写入到一个新的**内存中的 Lucene 段（in-memory segment）**中，并使其可以被搜索。

- **过程**：

1. 内存缓冲区里的数据被清空。

2. 这些数据被用来构建一个新的、小的、不可变的段结构。

3. 这个新段被打开，可用于搜索。

- **触发时机**：

- 默认每隔 `1` 秒自动执行一次（由 `index.refresh_interval` 控制）。这就是为什么 Elasticsearch 被称为**近实时（Near Real-Time, NRT）**搜索的原因——从写入到可被搜索有秒级的延迟。

- 可以手动触发：`POST /my-index/_refresh`。

- **结果**：数据变得**可搜索**了，但这个新段仍在内存中，其持久化依赖于操作系统的文件系统缓存。

#### Flush（刷盘）

- **作用**：将内存中的段（Segments）真正地、物理地写入磁盘，并清空事务日志（Translog）。这是一个更重的操作，确保数据的完全持久化。

- **过程**：

1. 执行一次 Refresh，将内存缓冲区里的剩余数据也变成一个段。

2. 调用 `fsync`，将所有内存中的 Lucene 段（包括操作系统缓存中的）强制写入到磁盘。

3. 创建一个新的、空的 Translog，旧的 Translog 文件可以被安全删除了（因为里面的所有操作都已持久化到段文件中）。

- **触发时机**：

- 当 Translog 文件变得太大时（由 `index.translog.flush_threshold_size` 控制，默认512MB）。

- 定期执行（由 `index.translog.sync_interval` 控制，但默认不启用时间触发）。

- 手动触发：`POST /my-index/_flush`。

- **结果**：数据被永久地保存在磁盘的段文件中，Translog 被清空，节点重启恢复速度更快（因为不再需要重放大的 Translog）。

### 总结

1. **客户端 -> 协调节点**：请求发送到任意节点。

2. **协调节点 -> 主分片**：协调节点计算路由，将请求转发给正确的主分片。

3. **主分片写入**：数据写入**内存缓冲区**和**事务日志（Translog）**，保证速度和数据安全。

4. **主分片 -> 副本分片**：请求被并行复制到所有副本。

5. **副本分片写入**：副本执行同样操作，写入内存和 Translog。

6. **确认与响应**：副本向主分片确认，主分片等够数量后向协调节点确认，最终协调节点向客户端返回成功。

7. **Refresh (近实时搜索)**：后台进程（默认每秒）将内存缓冲区数据变为**可搜索的段**。

8. **Flush (永久持久化)**：后台进程（或按需）将内存中的段**写入磁盘**，并清空 Translog。

11/10/2025

后端服务架构设计的可操作指南

后端架构设计的核心目标是构建一个高可用 (High Availability)、可扩展 (Scalable)、可维护 (Maintainable) 且安全 (Secure) 的系统，以满足业务需求。此设计过程并非一蹴而就，而是一个涉及多方面权衡（Trade-offs）的决策过程。本指南将通过模块化的方式，详细拆解设计过程中需要考虑的关键要素。

模块一：需求分析与目标设定 (The Foundation)

在编写任何代码或选择任何技术之前，首要任务是明确系统的“做什么”和“做到什么程度”。

1. 功能需求 (Functional Requirements):

系统必须提供的具体业务功能。
示例：用户注册、商品浏览、下单支付、数据分析看板等。

2. 非功能需求 (Non-Functional Requirements - NFRs):

这是架构设计的核心驱动力，决定了系统的“质量”：

性能 (Performance): 系统的响应时间（Latency）和吞吐量（Throughput）。（例如：99%的请求必须在200毫秒内响应）。
可扩展性 (Scalability): 系统应对增长负载的能力。是需要支持1万用户还是1亿用户？
可用性 (Availability): 系统正常运行的时间比例（例如：99.99%，即“四个九”）。
安全性 (Security): 数据保护、访问控制、合规性（如 GDPR - 《通用数据保护条例》）要求。
可维护性 (Maintainability): 代码的清晰度、模块化程度、易于修改和部署。
成本 (Cost): 开发成本、运营成本和维护成本的预算。

操作指南： 将 NFRs 量化。不要说“需要快速响应”，而要说“P99 延迟低于 200 毫秒”。这些量化指标是后续架构决策的基准。

模块二：核心架构选型 (The Big Picture)

基于需求，选择一个顶层架构模式。

1. 单体架构 (Monolithic Architecture):

描述： 所有功能模块打包在同一个应用程序中，作为一个单元进行开发、部署和扩展。
优点： 开发初期简单、快速，易于部署和测试。
缺点： 随着功能增加，代码库臃肿，模块间紧密耦合，扩展性差（必须整体扩展），单点故障风险高。

2. 微服务架构 (Microservices Architecture):

描述： 将大型应用拆分为一组小型的、独立的服务。每个服务运行在自己的进程中，通常围绕业务能力构建，并通过轻量级机制（如 HTTP API）通信。
优点： 独立部署与扩展，技术栈灵活（不同服务可用不同语言），故障隔离，团队自治。
缺点： 系统复杂度急剧增加（服务间通信、数据一致性、服务发现），运维成本高，需要强大的自动化（DevOps）支持。

3. 面向服务的架构 (SOA - Service-Oriented Architecture):

一种介于两者之间的模式，强调服务的可重用性，但服务粒度通常比微服务更大。

操作指南：
初创项目： 如果业务不确定性高，可从“精心设计的单体”（Modular Monolith）开始，保持模块间清晰的界限，以便将来拆分。
大型/复杂项目： 如果业务边界清晰、团队规模大、对可扩展性要求极高，微服务是更合适的选择。

模块三：关键组件与子系统设计 (The Building Blocks)

无论选择哪种架构，都需要设计以下关键组件。

1. API 与网关 (API & Gateway):

API 设计： 定义服务如何与外部（客户端）和内部（其他服务）通信。
- REST (Representational State Transfer - 表征状态转移): 最常用，基于 HTTP，无状态。
- gRPC (Google Remote Procedure Call): 高性能，基于 Protocol Buffers，适用于内部服务间通信。
- GraphQL: 允许客户端精确请求所需数据，避免数据冗余。
API 网关 (API Gateway): 系统的统一入口。
- 职责： 请求路由、负载均衡、身份认证、限流（Rate Limiting）、日志记录。
- 选型： Nginx, Kong, Traefik, 或云服务商提供的网关 (如 AWS API Gateway)。

2. 服务通信 (Service Communication):

同步通信 (Synchronous): 请求方等待响应（如 HTTP, gRPC）。适用于需要立即返回结果的场景。
异步通信 (Asynchronous): 通过消息传递实现解耦。
- 技术： 消息队列 (Message Queue)（如 RabbitMQ）或事件流平台 (Event Streaming)（如 Apache Kafka）。
- 优势： 削峰填谷（处理瞬时高并发）、提高系统韧性（服务B宕机，服务A仍可发送消息）、解耦服务。

3. 数据存储 (Data Storage):

数据库选型：
- 关系型数据库 (SQL): (如 PostgreSQL, MySQL)。适用于需要强事务一致性（ACID）、结构化数据的场景。
- NoSQL 数据库:
  - 键值存储 (Key-Value): (如 Redis, DynamoDB)。用于高速缓存、会话存储。
  - 文档数据库 (Document): (如 MongoDB)。用于非结构化、半结构化数据（如 JSON）。
  - 列式数据库 (Columnar): (如 Cassandra)。用于大数据分析、高写入量场景。
  - 图数据库 (Graph): (如 Neo4j)。用于社交网络、推荐系统。
缓存 (Caching):
- 目的： 降低数据库压力，加快响应速度。
- 策略： 缓存读（Read-through）、旁路缓存（Cache-aside）。
- 技术： Redis, Memcached。

4. 服务发现与注册 (Service Discovery & Registry):

（在微服务中尤为重要）服务如何找到彼此的地址？
模式： 客户端发现（Client-side）或服务端发现（Server-side）。
技术： Consul, etcd, Zookeeper，或集成在 K8s 中。

模块四：横切关注点 (Cross-Cutting Concerns)

这些问题贯穿于所有模块，必须统一规划。

1. 安全性 (Security):

身份认证 (Authentication - AuthN): 确认“你是谁？”。
- 技术： OAuth 2.0, OIDC (OpenID Connect), JWT (JSON Web Tokens)。
授权 (Authorization - AuthZ): 确认“你能做什么？”。
- 技术： RBAC (Role-Based Access Control - 基于角色的访问控制), ABAC (Attribute-Based Access Control)。
数据安全： 传输中加密 (TLS/SSL)，静态加密（数据库加密）。
网络安全： 防火墙、VPC (Virtual Private Cloud - 虚拟私有云)、DDoS 防护。

2. 可观测性 (Observability):

“如果系统出了问题，我能多快定位到？”

日志 (Logging): 记录离散的事件。（如 ELK Stack, Loki）。
指标 (Metrics): 聚合的、可量化的数据（如 CPU 使用率、请求 QPS）。（如 Prometheus, Grafana）。
追踪 (Tracing): 记录一个请求在分布式系统中的完整路径。（如 Jaeger, OpenTelemetry）。

3. 弹性与韧性 (Elasticity & Resilience):

系统应对故障和负载变化的能力。

负载均衡 (Load Balancing): 在多个实例间分配流量。
自动扩缩容 (Auto-scaling): 根据负载自动增减服务实例。
容错设计 (Fault Tolerance):
- 熔断器 (Circuit Breaker): 防止对已故障服务的连续无效调用。
- 重试 (Retry): 应对瞬时网络抖动。
- 限流 (Rate Limiting): 防止恶意或突发流量冲垮系统。

模块五：部署与运维 (Deployment & Operations)

架构设计也必须考虑如何交付和运行。

1. 容器化与编排 (Containerization & Orchestration):

Docker: 将应用及其依赖打包成标准化的容器。
Kubernetes (K8s): 自动化的容器部署、扩展和管理平台。

2. 持续集成/持续交付 (CI/CD):

CI (Continuous Integration): 自动化构建和测试。
CD (Continuous Delivery/Deployment): 自动化部署到生产环境。
工具： Jenkins, GitLab CI, GitHub Actions。

3. 配置管理 (Configuration Management):

将配置（如数据库密码、API 密钥）与代码分离。
工具： 环境变量、HashiCorp Vault, Consul。

总结：架构的演进

没有“完美”的架构，只有“合适”的架构。一个优秀的后端架构设计是一个持续演进的过程。始终从最小可行性产品 (MVP) 和最关键的非功能需求出发，优先保证系统的简洁和可维护性，随着业务的发展和技术压力的出现，有计划地进行重构和优化。

希望这份指南能为您提供一个清晰的框架。

订阅：评论 (Atom)