目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景《数据仓库》(《Building the Data Warehouse》)是数据仓库系统丛书的第一本著作,作者是Inmon。 第一章 决策支持系 ...
Apache Tez介绍
目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景https://tez.apache.org/ 第一部分参考文献及资料1、Apache Tez官网,链接:https://tez.apache. ...
算法系列-日志挖掘中的FP-Tree算法
目录 背景 第一部分 第二部分 第三部分 第四部分 参考文献及资料 背景https://blog.csdn.net/hunhun1122/article/details/79699791 https://blog.csdn.net/peiwang245/article/details ...
Apache Kudu综述
目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景第一部分现在提起大数据存储,我们能想到的技术有很多,比如HDFS,以及在HDFS上的列式存储技术Apache Parquet,Apache OR ...
数据湖系列-数据湖综述
目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景数据湖(data Lake),这个术语最早由James Dixon为了与数据集市对比而提出,当时他是Pentaho的首席技术官。 在维基百科中, ...
Kafka如何实现Exactly-once语义
目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景参考文献及资料1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2 ...