Yarn集群资源调度策略总结

背景

对于分布式大数据资源管理器，必然要运行大量的大数据处理任务。在面对多租户，任务服务水平优先级差异、集群资源有限的复杂业务场景下，就需要处理好：多租户资源的隔离、任务资源的分配优先级、最大发挥集群资源使用率。

通常业务级大数据平台

在YARN中，资源调度器（Scheduler）是ResourceManager中的重要组件，主要负责对整个集群（CPU，内存）的资源进行分配和调度，分配以资源Container的形式分发到各个应用程序中（如MapReduce作业），应用程序与资源所在节点的NodeManager协作利用Container完成具体的任务（如Reduce Task）

https://zhuanlan.zhihu.com/p/349882099

第一部分 FIFO Scheduler

第二部分 Capacity Scheduler

第三部分 Fair Scheduler

如果是使用yarn的公平调度抢占式资源模式，会强制干掉不属于当前用户队列的进程以空出资源。

参考文献及资料

1、Hadoop: Capacity Scheduler，链接：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

目录

背景

第一部分 FIFO Scheduler

第二部分 Capacity Scheduler

第三部分 Fair Scheduler

参考文献及资料