Fork me on GitHub

Spark分布式存储系统BlockManager总结

目录

  • 背景
  • 第一部分 Spark内存管理详解
  • 第二部分 Spark参数说明
  • 第三部分 Spark内存优化
  • 第四部分 常见线上问题解决
  • 参考文献及资料

背景

BlockManager 是一个嵌入在 spark 中的 key-value型分布式存储系统,是为 spark 量身打造的。

BlockManager 在一个 spark 应用中作为一个本地缓存运行在所有的节点上, 包括所有 driver 和 executor上。BlockManager 对本地和远程提供一致的 get 和set 数据块接口,BlockManager 本身使用不同的存储方式来存储这些数据, 包括 memory, disk, off-heap。

Spark中RDD是一个逻辑概念,实际的数据是通过BlockManager组件实现物理存储的。其中RDD是一个分布式对象,即分区的概念。其中每个分区(partition)在BlockManager中对应一个Block对象。

对于RDD的存取是以block为单位进行的,本质上partition和block是等价的,只是看待的角度不同。在Spark storage模块中中存取数据的最小单位是block,所有的操作都是以block为单位进行的。

http://spark.coolplayer.net/?p=209

参考文献及资料

1、RuoYi-Cloud项目文档,链接:https://blog.csdn.net/ifenggege/article/details/107968518

本文标题:Spark分布式存储系统BlockManager总结

文章作者:rong xiang

发布时间:2021年11月16日 - 13:11

最后更新:2022年10月25日 - 23:10

原始链接:https://zjrongxiang.github.io/posts/95a48fc7/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%