Fork me on GitHub

Yarn集群资源调度策略总结

目录

  • 背景
  • 第一部分 Spark内存管理详解
  • 第二部分 Spark参数说明
  • 第三部分 Spark内存优化
  • 第四部分 常见线上问题解决
  • 参考文献及资料

背景

对于分布式大数据资源管理器,必然要运行大量的大数据处理任务。在面对多租户,任务服务水平优先级差异、集群资源有限的复杂业务场景下,就需要处理好:多租户资源的隔离、任务资源的分配优先级、最大发挥集群资源使用率。

通常业务级大数据平台

在YARN中,资源调度器(Scheduler)是ResourceManager中的重要组件,主要负责对整个集群(CPU,内存)的资源进行分配和调度,分配以资源Container的形式分发到各个应用程序中(如MapReduce作业),应用程序与资源所在节点的NodeManager协作利用Container完成具体的任务(如Reduce Task)

https://zhuanlan.zhihu.com/p/349882099

第一部分 FIFO Scheduler

第二部分 Capacity Scheduler

第三部分 Fair Scheduler

如果是使用yarn的公平调度抢占式资源模式,会强制干掉不属于当前用户队列的进程以空出资源。

参考文献及资料

1、Hadoop: Capacity Scheduler,链接:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

本文标题:Yarn集群资源调度策略总结

文章作者:rong xiang

发布时间:2022年01月20日 - 13:01

最后更新:2022年10月25日 - 23:10

原始链接:https://zjrongxiang.github.io/posts/21742c3f/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%