Fork me on GitHub
RongXiang

我的烂笔头


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 日程表

  • 搜索

Hive的Metastore介绍

发表于 2020-10-27 | 更新于 2022-10-25 | 分类于 Hive |
本文字数: 2.7k | 阅读时长 ≈ 2 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景Hive Metastore,也称为HCatalog,是一个关系数据库存储库,其中包含有关您在Hive中创建的对象的元数据。创建Hive表时,表定义(列名,数据类型,注释等)存储在Hive Metasto ...

阅读全文 »

Spark和Elasticsearch交互实践总结

发表于 2020-10-13 | 更新于 2022-10-25 | 分类于 Spark |
本文字数: 12k | 阅读时长 ≈ 11 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景为了更好的支持Spark应用和Elasticsearch交互,Elasticsearch官方推出了elasticsearch-hadoop项目。本文将详细介绍Spark Java应用和Elasticsea ...

阅读全文 »

Python中局部函数

发表于 2020-10-10 | 更新于 2022-10-25 | 分类于 Python |
本文字数: 4.3k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 第二部分 参考文献及资料 背景通过前面的学习我们知道,Python 函数内部可以定义变量,这样就产生了局部变量,有读者可能会问,Python 函数内部能定义函数吗?答案是肯定的。Python 支持在函数内部定义函数,此类函数又称为局部函数。 那么,局部函数有哪些特征,在 ...

阅读全文 »

Python中的递归和限制

发表于 2020-10-10 | 更新于 2022-10-25 | 分类于 Yarn |
本文字数: 567 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 第二部分 参考文献及资料 背景参考文献及资料1、YARN Application Security,链接:https://hadoop.apache.org/docs/r2.7.4/hadoop-yarn/hadoop-yarn-site/YarnApplication ...

阅读全文 »

监控Yarn资源调度平台资源状态

发表于 2020-10-06 | 更新于 2022-10-25 | 分类于 Yarn |
本文字数: 32k | 阅读时长 ≈ 29 分钟

目录 背景 第一部分 Yarn状态数据接口 第二部分 Java实现 第三部分 总结 参考文献及资料 背景目前国内大部分企业级的大数据平台资源调度系统都是基于Yarn集群。生产环境上,各种大数据计算框架运行在Yarn上,就需要对Yarn平台的资源情况进行实时监控。虽然Yarn本身提供一个Web管 ...

阅读全文 »

MapReduce on Yarn机制总结

发表于 2020-10-06 | 更新于 2022-10-25 | 分类于 spark |
本文字数: 5.1k | 阅读时长 ≈ 5 分钟

目录 背景 第一部分 常用快捷键 参考文献及资料 背景Yarn作为资源统一管理平台是从第一代MapReduce(MRv1)演进而来。在最初的MRv1架构中,主要构成有三部分: 编程模型,MapReduce API; 资源管理和作业控制模块,JobTracker(作业跟踪器)、TaskTrack ...

阅读全文 »

大数据资源调度平台粒度的说明

发表于 2020-10-06 | 更新于 2022-10-25 | 分类于 spark |
本文字数: 3.8k | 阅读时长 ≈ 3 分钟

目录 背景 第一部分 各种资源调度器粒度 第二部分 动态分配(Dynamic Allocation) 参考文献及资料 背景我们在Yarn资源管理器上提交MapReduce任务的时候发现(Yarn Web控制台),任务使用的container数量是变化的。其实这是由于MapReduce任务在Yar ...

阅读全文 »

监控Kafka的Topic数据

发表于 2020-10-05 | 更新于 2022-10-25 | 分类于 Kafka |
本文字数: 13k | 阅读时长 ≈ 12 分钟

目录 背景 第一部分实现原理 第二部分 实现源码 参考文献及资料 背景业务上需要实现对Kafka的Topic中数据进行监控。业务正常下,Kafka生产者是持续生产数据的。如果一段时间出现Kafka中指定Topic没有新的数据,那么说明业务生产者可能出现异常。 第一部分 实现原理1.1 Kafka生 ...

阅读全文 »

Elasticsearch中的GC以及监控

发表于 2020-10-05 | 更新于 2022-10-25 | 分类于 Elasticsearch |
本文字数: 1.1k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分实现原理 第二部分 实现源码 参考文献及资料 背景garbage collection 第一部分 实现原理第二部分 实现源码参考文献及资料1、Nodes stats API介绍,链接:https://www.elastic.co/guide/en/elasticsearch/r ...

阅读全文 »

使用Dockerfile定制docker镜像总结

发表于 2020-10-03 | 更新于 2022-10-25 | 分类于 docker |
本文字数: 1.6k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Hive 性能瓶颈根源 Hive 配置优化 Hive 语句优化 总结 背景构建Docker镜像通常有两种方式: 基于容器制作; 通过Dockerfile; Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。 第一部分 Doc ...

阅读全文 »
1…192021…32
rong xiang

rong xiang

Keep a Pure Curiosity

311 日志
80 分类
21 标签
RSS
GitHub E-Mail Weibo
Link
  • 爱生活爱可可
© 2014 – 2022 rong xiang | 940k | 14:15
|
0%