目录 背景 第一部分 Hive 性能瓶颈根源 Hive 配置优化 Hive 语句优化 总结 背景构建Docker镜像通常有两种方式: 基于容器制作; 通过Dockerfile; Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。 第一部分 Doc ...
Elasticsearch集群pending_task任务等待集群故障处理
目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景故障现象: 集群出现大量的put-mapping的任务堆积 (1200个左右),该任务属于HIGH级别,比创建索引等任务级别高。所以出现集群4月27号的索引未创建成功。 p ...
Hive中静态分区和动态分区总结
目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景在Hive中有两种类型的分区:静态分区(Static Partitioning)和动态分区(Dynamic Partitioning)。 静态分区。对于静态分区,从字面就 ...
Hive中外部表总结和实践
目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景参考文献及资料1、动态分区,链接:https://cwiki.apache.org/confluence/display/Hive/DynamicPartitions 2、 ...
Mysql的两种连接方式总结
目录 背景 第一部分 TCP/IP Socket 第二部分 UNIX Domain Socket 第三部分 Mysql的两种连接方式 参考文献及资料 背景我们在使用Mysql客户端和Mysql交互的时候,如果客户端是远程(非本机)那么底层是通过TCP/IP的Socket方式进行交互。但是如果客户 ...
Spark任务依赖jar包总结
目录 背景 第一部分 常用快捷键 参考文献及资料 背景编写了Spark批任务(Java),使用maven打包成jar包,提交到Yarn集群,报jar包冲突的错误。查阅资料了解一下背后的原理。 https://stackoverflow.com/questions/16222748/buildin ...
HDFS小文件治理总结
目录 背景 第一部分 回本溯源 第二部分 HDFS大量小文件的危害 第三部分 小文件治理方案总结 第四部分 总结 参考文献及资料 背景企业级Hadoop大数据平台在实际使用过程中,可能大部分会遭遇小文件问题,并体验它的破坏性。HDFS文件系统的 inode 信息和 block 信息以及 b ...
HDFS小文件治理总结
目录 背景 第一部分 第二部分 第三部分 参考文献及资料 背景https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 参考文献及资料