目录
- 背景
- 第一部分 Spark内存管理详解
- 第二部分 Spark参数说明
- 第三部分 Spark内存优化
- 第四部分 常见线上问题解决
- 参考文献及资料
背景
Delta Lake 、Iceberg和Hudi三个定位类似的开源项目从数据库方法论中汲取灵感,将事务等能力带到了大数据领域,并抽象成统一的中间格式供不同引擎适配对接。
其本质上并不定义数据存储方式,而是定义数据、元数据的组织方式,向上提供统一的“表”的语义。“表”的底层数据存储仍然使用 Parquet、ORC 等格式。
参考文献及资料
1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2762789/