Fork me on GitHub
RongXiang

我的烂笔头


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 日程表

  • 搜索

使用Dockerfile定制docker镜像总结

发表于 2020-10-03 | 更新于 2022-10-25 | 分类于 docker |
本文字数: 1.6k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Hive 性能瓶颈根源 Hive 配置优化 Hive 语句优化 总结 背景构建Docker镜像通常有两种方式: 基于容器制作; 通过Dockerfile; Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。 第一部分 Doc ...

阅读全文 »

Elasticsearch集群pending_task任务等待集群故障处理

发表于 2020-10-02 | 更新于 2022-10-25 | 分类于 Hive |
本文字数: 4.8k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景故障现象: 集群出现大量的put-mapping的任务堆积 (1200个左右),该任务属于HIGH级别,比创建索引等任务级别高。所以出现集群4月27号的索引未创建成功。 p ...

阅读全文 »

Hive中静态分区和动态分区总结

发表于 2020-10-02 | 更新于 2022-10-25 | 分类于 Hive |
本文字数: 12k | 阅读时长 ≈ 11 分钟

目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景在Hive中有两种类型的分区:静态分区(Static Partitioning)和动态分区(Dynamic Partitioning)。 静态分区。对于静态分区,从字面就 ...

阅读全文 »

Hive中外部表总结和实践

发表于 2020-10-02 | 更新于 2022-10-25 | 分类于 Hive |
本文字数: 923 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景参考文献及资料1、动态分区,链接:https://cwiki.apache.org/confluence/display/Hive/DynamicPartitions 2、 ...

阅读全文 »

Mysql的两种连接方式总结

发表于 2020-10-02 | 更新于 2022-10-25 | 分类于 Mysql |
本文字数: 11k | 阅读时长 ≈ 10 分钟

目录 背景 第一部分 TCP/IP Socket 第二部分 UNIX Domain Socket 第三部分 Mysql的两种连接方式 参考文献及资料 背景我们在使用Mysql客户端和Mysql交互的时候,如果客户端是远程(非本机)那么底层是通过TCP/IP的Socket方式进行交互。但是如果客户 ...

阅读全文 »

Spark任务依赖jar包总结

发表于 2020-09-27 | 更新于 2022-10-25 | 分类于 Java |
本文字数: 6.5k | 阅读时长 ≈ 6 分钟

目录 背景 第一部分 常用快捷键 参考文献及资料 背景编写了Spark批任务(Java),使用maven打包成jar包,提交到Yarn集群,报jar包冲突的错误。查阅资料了解一下背后的原理。 https://stackoverflow.com/questions/16222748/buildin ...

阅读全文 »

HDFS小文件治理总结

发表于 2020-09-12 | 更新于 2022-10-25 | 分类于 HDFS |
本文字数: 31k | 阅读时长 ≈ 28 分钟

目录 背景 第一部分 回本溯源 第二部分 HDFS大量小文件的危害 第三部分 小文件治理方案总结 第四部分 总结 参考文献及资料 背景企业级Hadoop大数据平台在实际使用过程中,可能大部分会遭遇小文件问题,并体验它的破坏性。HDFS文件系统的 inode 信息和 block 信息以及 b ...

阅读全文 »

布隆过滤算法总结

发表于 2020-09-12 | 更新于 2022-10-25 | 分类于 算法 |
本文字数: 1.1k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 第二部分 第三部分 参考文献及资料 背景https://blog.csdn.net/zhanyuanlin/article/details/78799341 https://blog.csdn.net/zhanyuanlin/article/details/7879 ...

阅读全文 »

布隆过滤算法总结

发表于 2020-09-12 | 更新于 2022-10-25 | 分类于 算法 |
本文字数: 11k | 阅读时长 ≈ 10 分钟

目录 背景 第一部分 第二部分 第三部分 参考文献及资料 背景在数据处理中,我们经常有这样的需求,判断某个元素是否在一个指定集合中。最朴素的处理方法是首先存储指定集合中数据,然后查找集合中数据,如有数据和查找元素相等即归属于该集合。 在数学中,如果只利用集合的定义属性,查找只能通过穷举遍 ...

阅读全文 »

HDFS小文件治理总结

发表于 2020-09-12 | 更新于 2022-10-25 | 分类于 HDFS |
本文字数: 474 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 第二部分 第三部分 参考文献及资料 背景https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 参考文献及资料

阅读全文 »
1…202122…32
rong xiang

rong xiang

Keep a Pure Curiosity

311 日志
80 分类
21 标签
RSS
GitHub E-Mail Weibo
Link
  • 爱生活爱可可
© 2014 – 2022 rong xiang | 940k | 14:15
|
0%