目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景Hive Metastore,也称为HCatalog,是一个关系数据库存储库,其中包含有关您在Hive中创建的对象的元数据。创建Hive表时,表定义(列名,数据类型,注释等)存储在Hive Metasto ...
Spark和Elasticsearch交互实践总结
目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景为了更好的支持Spark应用和Elasticsearch交互,Elasticsearch官方推出了elasticsearch-hadoop项目。本文将详细介绍Spark Java应用和Elasticsea ...
Python中局部函数
目录 背景 第一部分 第二部分 参考文献及资料 背景通过前面的学习我们知道,Python 函数内部可以定义变量,这样就产生了局部变量,有读者可能会问,Python 函数内部能定义函数吗?答案是肯定的。Python 支持在函数内部定义函数,此类函数又称为局部函数。 那么,局部函数有哪些特征,在 ...
Python中的递归和限制
目录 背景 第一部分 第二部分 参考文献及资料 背景参考文献及资料1、YARN Application Security,链接:https://hadoop.apache.org/docs/r2.7.4/hadoop-yarn/hadoop-yarn-site/YarnApplication ...
监控Yarn资源调度平台资源状态
目录 背景 第一部分 Yarn状态数据接口 第二部分 Java实现 第三部分 总结 参考文献及资料 背景目前国内大部分企业级的大数据平台资源调度系统都是基于Yarn集群。生产环境上,各种大数据计算框架运行在Yarn上,就需要对Yarn平台的资源情况进行实时监控。虽然Yarn本身提供一个Web管 ...
MapReduce on Yarn机制总结
目录 背景 第一部分 常用快捷键 参考文献及资料 背景Yarn作为资源统一管理平台是从第一代MapReduce(MRv1)演进而来。在最初的MRv1架构中,主要构成有三部分: 编程模型,MapReduce API; 资源管理和作业控制模块,JobTracker(作业跟踪器)、TaskTrack ...
大数据资源调度平台粒度的说明
目录 背景 第一部分 各种资源调度器粒度 第二部分 动态分配(Dynamic Allocation) 参考文献及资料 背景我们在Yarn资源管理器上提交MapReduce任务的时候发现(Yarn Web控制台),任务使用的container数量是变化的。其实这是由于MapReduce任务在Yar ...
监控Kafka的Topic数据
目录 背景 第一部分实现原理 第二部分 实现源码 参考文献及资料 背景业务上需要实现对Kafka的Topic中数据进行监控。业务正常下,Kafka生产者是持续生产数据的。如果一段时间出现Kafka中指定Topic没有新的数据,那么说明业务生产者可能出现异常。 第一部分 实现原理1.1 Kafka生 ...
Elasticsearch中的GC以及监控
目录 背景 第一部分实现原理 第二部分 实现源码 参考文献及资料 背景garbage collection 第一部分 实现原理第二部分 实现源码参考文献及资料1、Nodes stats API介绍,链接:https://www.elastic.co/guide/en/elasticsearch/r ...
使用Dockerfile定制docker镜像总结
目录 背景 第一部分 Hive 性能瓶颈根源 Hive 配置优化 Hive 语句优化 总结 背景构建Docker镜像通常有两种方式: 基于容器制作; 通过Dockerfile; Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。 第一部分 Doc ...