目录
- 背景
- 第一部分 Spark内存管理详解
- 第二部分 Spark参数说明
- 第三部分 Spark内存优化
- 第四部分 常见线上问题解决
- 参考文献及资料
背景
对于分布式大数据资源管理器,必然要运行大量的大数据处理任务。在面对多租户,任务服务水平优先级差异、集群资源有限的复杂业务场景下,就需要处理好:多租户资源的隔离、任务资源的分配优先级、最大发挥集群资源使用率。
通常业务级大数据平台
在YARN中,资源调度器(Scheduler)是ResourceManager中的重要组件,主要负责对整个集群(CPU,内存)的资源进行分配和调度,分配以资源Container的形式分发到各个应用程序中(如MapReduce作业),应用程序与资源所在节点的NodeManager协作利用Container完成具体的任务(如Reduce Task)
https://zhuanlan.zhihu.com/p/349882099
第一部分 FIFO Scheduler
第二部分 Capacity Scheduler
第三部分 Fair Scheduler
如果是使用yarn的公平调度抢占式资源模式,会强制干掉不属于当前用户队列的进程以空出资源。
参考文献及资料
1、Hadoop: Capacity Scheduler,链接:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html