Fork me on GitHub
RongXiang

我的烂笔头


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 日程表

  • 搜索

Spark源码编译实践

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 spark |
本文字数: 4.9k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 Receiver接口模式 第二部分 Direct接口模式 第三部分 PySpark和Kafka交互 第四部分 任务提交 参考文献及资料 背景编译spark2.X源码这里我们使用源码包中自带的make-distribution.sh文件进行编译。当然在编译 ...

阅读全文 »

Python系列文章-Pandas使用碎碎念

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 spark |
本文字数: 1k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 变量说明 第二部分 总结 参考文献及资料 背景第一部分 数据过滤1.1 按照字段值过滤df1 = df[df['A']==1] 第二部分 数据合并第三部分 数据替换参考文献及资料1、变量官网介绍:

阅读全文 »

Pyspark系列文章-通过toree项目使用Pyspark

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 pyspark |
本文字数: 1.1k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Receiver接口模式 第二部分 Direct接口模式 第三部分 PySpark和Kafka交互 第四部分 任务提交 参考文献及资料 背景第一部分 安装toree# pip install toree 安装 # jupyter toree instal ...

阅读全文 »

PySpark和Kafka交互总结

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 pyspark |
本文字数: 56k | 阅读时长 ≈ 51 分钟

目录 背景 第一部分 Receiver接口模式 第二部分 Direct接口模式 第三部分 PySpark和Kafka交互 第四部分 任务提交 参考文献及资料 背景Apache Kafka项目是大数据处理中重要的消息引擎。Spark Streaming作为重要的流处理计算框架通 ...

阅读全文 »

Pyspark系列文章-通过toree项目使用Pyspark

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 pyspark |
本文字数: 1.1k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 Receiver接口模式 第二部分 Direct接口模式 第三部分 PySpark和Kafka交互 第四部分 任务提交 参考文献及资料 背景第一部分 安装toree# pip install toree 安装 # jupyter toree instal ...

阅读全文 »

Python系列文章-Python中的环境变量介绍

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 spark |
本文字数: 5.1k | 阅读时长 ≈ 5 分钟

目录 背景 第一部分 变量说明 第二部分 总结 参考文献及资料 背景环境说明:Python 3.7.3 使用下面的命令显示相关版本的说明信息: # python --help# ......Other environment variables:PYTHONSTARTUP: file ...

阅读全文 »

Kafka系列文章(第五篇 Kafka安全集群)

发表于 2020-03-02 | 更新于 2022-10-25 | 分类于 Kafka |
本文字数: 106k | 阅读时长 ≈ 1:37

目录 背景 第一部分 Kafka集群加密传输 第二部分 Kafka集群权限认证 第三部分 加密认证集群的客户端 第四部分 加密认证集群的性能压测 第五部分 总结 参考文献及资料 背景Kafka在0.9.0.0版本前没有安全机制功能。Kafka Client程序可以直接获取到Kaf ...

阅读全文 »

Go语言学习系列(一)Go语言Win开发环境部署

发表于 2020-01-31 | 更新于 2022-10-25 | 分类于 Go |
本文字数: 11k | 阅读时长 ≈ 10 分钟

目录 背景 第一部分 windows下安装 第二部分 配置环境变量 第三部分 IDE配置 第四部分 HelloWorld案例 参考文献及资料 背景Go语言的官方网站:https://golang.org/ 由于防火墙原因,请大家在这个网站下载:https://stud ...

阅读全文 »

Spark中的Watermark

发表于 2020-01-27 | 更新于 2022-10-25 | 分类于 ElasticSearch |
本文字数: 610 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 温热集群整体架构 第二部分 架构配置 第三部分 架构维护相关 第四部分 基于hot-warm架构的读写分离实现 总结 参考文献及资料 背景https://towardsdatascience.com/watermarking-in-spark-structured ...

阅读全文 »

Elasticsearch系列文章-数据的写入

发表于 2020-01-27 | 更新于 2022-10-25 | 分类于 ElasticSearch |
本文字数: 581 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 温热集群整体架构 第二部分 架构配置 第三部分 架构维护相关 第四部分 基于hot-warm架构的读写分离实现 总结 参考文献及资料 背景参考文献和资料1、Elasticsearch 主节点和暖热节点 https://dongbo0737.github.io/20 ...

阅读全文 »
1…232425…32
rong xiang

rong xiang

Keep a Pure Curiosity

311 日志
80 分类
21 标签
RSS
GitHub E-Mail Weibo
Link
  • 爱生活爱可可
© 2014 – 2022 rong xiang | 940k | 14:15
|
0%