Fork me on GitHub
RongXiang

我的烂笔头


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 日程表

  • 搜索

数据仓库学习系列-《Building the Data Warehouse》学习笔记

发表于 2022-02-13 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 714 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景《数据仓库》(《Building the Data Warehouse》)是数据仓库系统丛书的第一本著作,作者是Inmon。 第一章 决策支持系 ...

阅读全文 »

Apache Tez介绍

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 651 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景https://tez.apache.org/ 第一部分参考文献及资料1、Apache Tez官网,链接:https://tez.apache. ...

阅读全文 »

算法系列-日志挖掘中的FP-Tree算法

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 算法 |
本文字数: 4.3k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 第二部分 第三部分 第四部分 参考文献及资料 背景https://blog.csdn.net/hunhun1122/article/details/79699791 https://blog.csdn.net/peiwang245/article/details ...

阅读全文 »

Apache Kudu综述

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 779 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景第一部分现在提起大数据存储,我们能想到的技术有很多,比如HDFS,以及在HDFS上的列式存储技术Apache Parquet,Apache OR ...

阅读全文 »

题目

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 4.6k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景1、cookie session jwt oauth2 httpshttps://www.cnblogs.com/holaJava/p/1318 ...

阅读全文 »

Hive表的索引

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 4.3k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景简介Hive从0.7.0版本开始加入了索引, 在 0.7.0 版中添加了 Hive 索引,在 0.8.0 版中添加了位图索引。 索引已在 3.0 ...

阅读全文 »

数据湖系列-数据湖综述

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 1.6k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景数据湖(data Lake),这个术语最早由James Dixon为了与数据集市对比而提出,当时他是Pentaho的首席技术官。 在维基百科中, ...

阅读全文 »

数据仓库介绍

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 925 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景结合我参与过的数仓项目建设经验和踩过的坑,对于数仓主题、主题域划分个人比较推荐按照业务系统划分或者bu部门来划分主题域(一级主题),这样的话边界 ...

阅读全文 »

Kafka如何实现Exactly-once语义

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Kafka |
本文字数: 533 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景参考文献及资料1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2 ...

阅读全文 »

数据湖及开源三剑客

发表于 2022-01-20 | 更新于 2022-10-25 | 分类于 Hadoop |
本文字数: 709 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Spark内存管理详解 第二部分 Spark参数说明 第三部分 Spark内存优化 第四部分 常见线上问题解决 参考文献及资料 背景Delta Lake 、Iceberg和Hudi三个定位类似的开源项目从数据库方法论中汲取灵感,将事务等能力带到了大数据领域,并抽象成统一的中间 ...

阅读全文 »
1…789…32
rong xiang

rong xiang

Keep a Pure Curiosity

311 日志
80 分类
21 标签
RSS
GitHub E-Mail Weibo
Link
  • 爱生活爱可可
© 2014 – 2022 rong xiang | 940k | 14:15
|
0%