目录
- 背景
- 第一部分 Spark内存管理详解
- 第二部分 Spark参数说明
- 第三部分 Spark内存优化
- 第四部分 常见线上问题解决
- 参考文献及资料
背景
BlockManager 是一个嵌入在 spark 中的 key-value型分布式存储系统,是为 spark 量身打造的。
BlockManager 在一个 spark 应用中作为一个本地缓存运行在所有的节点上, 包括所有 driver 和 executor上。BlockManager 对本地和远程提供一致的 get 和set 数据块接口,BlockManager 本身使用不同的存储方式来存储这些数据, 包括 memory, disk, off-heap。
Spark中RDD是一个逻辑概念,实际的数据是通过BlockManager组件实现物理存储的。其中RDD是一个分布式对象,即分区的概念。其中每个分区(partition)在BlockManager中对应一个Block对象。
对于RDD的存取是以block为单位进行的,本质上partition和block是等价的,只是看待的角度不同。在Spark storage模块中中存取数据的最小单位是block,所有的操作都是以block为单位进行的。
http://spark.coolplayer.net/?p=209
参考文献及资料
1、RuoYi-Cloud
项目文档,链接:https://blog.csdn.net/ifenggege/article/details/107968518