[TOC] 背景 Spark2.3版本开始支持使用spark-submit直接提交任务给Kubernetes集群。执行机制原理: Spark创建一个在Kubernetes pod中运行的Spark驱动程序。 驱动程序创建执行程序,这些执行程序也在Kubernetes pod中运行并连接到 ...
在Minikube上运行Kafka集群
目录 背景 第一部分 Minikube集群启动 第一部分 Kubernetes中StatefulSet介绍 第三部分 部署Zookeeper集群 第四部分 部署Kafka集群 第五部分 总结 参考文献及资料 背景Kafka和zookeeper是在两种典型的有状态的集群服务。首先 ...
使用Docker部署Mysql容器
目录 背景 第一部分 拉取Mysql镜像 第二部分 启动镜像 第五部分 总结 参考文献及资料 背景第一部分 拉取Mysql镜像1.1 镜像拉起我们使用Mysql官方(https://hub.docker.com/_/mysql)提供的镜像资源。 root@deeplearning:/ ...
在Ubuntu上部署Minikube
[TOC] 背景Kubernetes是Google推出的容器编排工具,这是Google保密十几年的强大武器Borg的开源版本。Kubernetes这个名字源于古希腊,意思是舵手。既然docker被比喻成大海上驮着集装箱的鲸鱼,那么Kubernetes就是舵手,掌握鲸鱼的游弋方向,寓意深刻。 Kube ...
使用Cloudera Quickstart Docker镜像快速部署hadoop集群
目录 背景 第一部分 Docker镜像准备 第二部分 运行容器 第三部分 cloudera-manager管理 第四部分 组件使用测试 第五部分 总结 参考文献及资料 背景通常在个人笔记本上部署Hadoop测试集群(含生态圈各组件)是个很耗时的工作。Cloudera公司提供一个 ...
在Minikube上运行Flink集群
目录 背景 第一部分 部署准备 第二部分 验证 总结 参考文献及资料 背景第一部分 部署准备首先当然需要部署minikube集群。启动minikube集群: # minikube startStarting local Kubernetes v1.10.0 cluster...Starti ...
机器学习系列文章-聚类算法总结
背景根据事物的特征差异,对事物进行分类是一个基本问题。这个问题在数据科学中进行抽象:(1)“特征”指的是事物对应的特征向量,(2)“差异”对应的为特征向量之间的距离(度量)。 对于这个基本问题,根据已知数据是否具有标签,数据科学中使用两种不同的学习方法来处理: 分类问题。样本抽样数据具有标签信息。 ...
关于正则表达式使用和总结
背景正则表达式(regular Expression)是计算机中的概念。regular这里是规则、规律的意思,字面翻译指的是:规则的表达式。正则表达式主要用来处理字符串的工具,拥有自己独特的语法。 计算机常用语言均支持正则表达式,语法都是相同的,区别在于不同的语言支持的语法略有差异。 在数据科学实 ...
机器学习系列文章-集成学习综述
文章分为两个部分: 第一部分,介绍集成学习的理论原理。 第二部分,实践部分。主要使用sklearn封装的包。 第一部分 理论原理什么是集成学习 首先集成学习(ensemble learning)不是具体的算法,应该算一种算法思想(Algorithm Framework,类比EM ...
5分钟介绍深度学习(科普)
历史背景最近几年Deep Learning、AI人工智能、机器学习等名词称为新闻热点,特别是Google Deep mind的Alpha Go战胜韩国棋手李世石,让深度学习妇孺皆知。 首先从概念范畴上讲,deep learning属于机器学习的一个分支,追根溯源其实是人工神经网络。顾名思义,人工神经 ...