Fork me on GitHub
RongXiang

我的烂笔头


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 日程表

  • 搜索

使用Pyspark进行机器学习

发表于 2020-11-23 | 更新于 2022-10-25 | 分类于 pyspark |
本文字数: 16k | 阅读时长 ≈ 15 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景第一部分 环境准备配置和启动jupyter notebook。 1.1 生成配置root@hadoop01:/opt# jupyter notebook --generate-configWriting ...

阅读全文 »

如何将文件数据导入hive表中

发表于 2020-11-23 | 更新于 2022-10-25 | 分类于 hive |
本文字数: 8.1k | 阅读时长 ≈ 7 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景使用head命令看一下。 第一步 创建库和hive表使用下面的命令进入hive shell交互模式。 root@hadoop01:/opt/hive/bin/#hive 创建库: CREATE datab ...

阅读全文 »

Unix和Windows中文本行末结束符

发表于 2020-11-12 | 更新于 2022-10-25 | 分类于 Linux |
本文字数: 4.8k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 回车和换行 第二部分 兼容性问题解决 参考文献及资料 背景或许你遇到过这样的坑。当你信心满满将自己编写的程序文件或配置文件上传到生产环境(linux),却发现无法运行或者生效。但是明明在本地(Windows)测试运行没有问题。那么很大几率遇到文本行末结束符的坑。 Unix和 ...

阅读全文 »

HDFS Federation架构介绍

发表于 2020-11-12 | 更新于 2022-10-25 | 分类于 HDFS |
本文字数: 702 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景http://dongxicheng.org/mapreduce/hdfs-federation-introduction/ 参考文献及资料1、 Apache Spark support,链接:http: ...

阅读全文 »

Yarn上长任务报Token失效问题总结(Invalid AMRMToken)

发表于 2020-11-12 | 更新于 2022-10-25 | 分类于 HDFS |
本文字数: 1.4k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景https://github.com/marsishandsome/marsishandsome.github.io/blob/master/slides/HadoopSecurity/Index.md ...

阅读全文 »

Yarn上长任务报Token失效问题总结(Invalid AMRMToken)

发表于 2020-11-12 | 更新于 2022-10-25 | 分类于 HDFS |
本文字数: 509 | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景https://cloud.tencent.com/developer/article/1350441 参考文献及资料1、 Apache Spark support,链接

阅读全文 »

Yarn上长任务报Token失效问题总结(Invalid AMRMToken)

发表于 2020-11-12 | 更新于 2022-10-25 | 分类于 HDFS |
本文字数: 2.3k | 阅读时长 ≈ 2 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景\4. hive 从非分区表插入数据到分区表时出错: Cannot insert into target table because column number/types are different ‘ ...

阅读全文 »

Hive的分区和分桶总结

发表于 2020-11-05 | 更新于 2022-10-25 | 分类于 Hive |
本文字数: 12k | 阅读时长 ≈ 11 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景Hive将表划分为分区(partition)表和分桶(bucket)表。分区表在加载数据的时候可以指定加载某一部分数据,并不是全量的数据,可以让数据的部分查询变得更快。分桶表通常是在原始数据中加入一些额外 ...

阅读全文 »

Spark和oracle交互总结

发表于 2020-11-05 | 更新于 2022-10-25 | 分类于 Spark |
本文字数: 1.6k | 阅读时长 ≈ 1 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景https://issues.apache.org/jira/browse/SPARK-10909 Spark SPARK-10909 Spark sql jdbc fails for Oracle ...

阅读全文 »

云服务器部署WordPress介绍

发表于 2020-10-31 | 更新于 2022-10-25 | 分类于 WordPress |
本文字数: 4.6k | 阅读时长 ≈ 4 分钟

目录 背景 第一部分 环境依赖 第二部分 交互接口 第三部分 任务提交 参考文献及资料 背景第一部分 环境部署笔者购买了腾讯云的云主机,操作系统环境为:Ubuntu 18.04.4 LTS (GNU/Linux 4.15.0-88-generic x86_64)。主机具有互联网环境,所以依赖组件 ...

阅读全文 »
1…181920…32
rong xiang

rong xiang

Keep a Pure Curiosity

311 日志
80 分类
21 标签
RSS
GitHub E-Mail Weibo
Link
  • 爱生活爱可可
© 2014 – 2022 rong xiang | 940k | 14:15
|
0%