数据湖及开源三剑客

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop | | 阅读次数：

本文字数： 709 | 阅读时长 ≈ 1 分钟

背景

Delta Lake 、Iceberg和Hudi三个定位类似的开源项目从数据库方法论中汲取灵感，将事务等能力带到了大数据领域，并抽象成统一的中间格式供不同引擎适配对接。

其本质上并不定义数据存储方式，而是定义数据、元数据的组织方式，向上提供统一的“表”的语义。“表”的底层数据存储仍然使用 Parquet、ORC 等格式。

1、数据治理对运维数据体系的思考与启发，链接：http://blog.itpub.net/69994525/viewspace-2762789/