Fork me on GitHub

数据湖及开源三剑客

目录

  • 背景
  • 第一部分 Spark内存管理详解
  • 第二部分 Spark参数说明
  • 第三部分 Spark内存优化
  • 第四部分 常见线上问题解决
  • 参考文献及资料

背景

Delta Lake 、Iceberg和Hudi三个定位类似的开源项目从数据库方法论中汲取灵感,将事务等能力带到了大数据领域,并抽象成统一的中间格式供不同引擎适配对接。

其本质上并不定义数据存储方式,而是定义数据、元数据的组织方式,向上提供统一的“表”的语义。“表”的底层数据存储仍然使用 Parquet、ORC 等格式。

参考文献及资料

1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2762789/

本文标题:数据湖及开源三剑客

文章作者:rong xiang

发布时间:2022年01月20日 - 13:01

最后更新:2022年10月25日 - 23:10

原始链接:https://zjrongxiang.github.io/posts/2dc9f0b9/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%