[TOC] 背景Kubernetes是Google推出的容器编排工具，这是Google保密十几年的强大武器Borg的开源版本。Kubernetes这个名字源于古希腊，意思是舵手。既然docker被比喻成大海上驮着集装箱的鲸鱼，那么Kubernetes就是舵手，掌握鲸鱼的游弋方向，寓意深刻。 Kube ...

阅读全文 »

使用Cloudera Quickstart Docker镜像快速部署hadoop集群

发表于 2018-06-25 | 更新于 2022-10-25 | 分类于 hadoop |

本文字数： 28k | 阅读时长 ≈ 26 分钟

目录背景第一部分 Docker镜像准备第二部分运行容器第三部分 cloudera-manager管理第四部分组件使用测试第五部分总结参考文献及资料背景通常在个人笔记本上部署Hadoop测试集群（含生态圈各组件）是个很耗时的工作。Cloudera公司提供一个 ...

阅读全文 »

在Minikube上运行Flink集群

发表于 2018-06-25 | 更新于 2022-10-25 | 分类于 Flink |

本文字数： 20k | 阅读时长 ≈ 19 分钟

目录背景第一部分部署准备第二部分验证总结参考文献及资料背景第一部分部署准备首先当然需要部署minikube集群。启动minikube集群： # minikube startStarting local Kubernetes v1.10.0 cluster...Starti ...

阅读全文 »

机器学习系列文章-聚类算法总结

发表于 2018-06-25 | 更新于 2022-10-25 | 分类于 machine learning |

本文字数： 2k | 阅读时长 ≈ 2 分钟

背景根据事物的特征差异，对事物进行分类是一个基本问题。这个问题在数据科学中进行抽象：（1）“特征”指的是事物对应的特征向量，（2）“差异”对应的为特征向量之间的距离（度量）。对于这个基本问题，根据已知数据是否具有标签，数据科学中使用两种不同的学习方法来处理：分类问题。样本抽样数据具有标签信息。 ...

阅读全文 »

关于正则表达式使用和总结

发表于 2018-06-25 | 更新于 2022-10-25 | 分类于 machine learning |

本文字数： 11k | 阅读时长 ≈ 10 分钟

背景正则表达式（regular Expression）是计算机中的概念。regular这里是规则、规律的意思，字面翻译指的是：规则的表达式。正则表达式主要用来处理字符串的工具，拥有自己独特的语法。计算机常用语言均支持正则表达式，语法都是相同的，区别在于不同的语言支持的语法略有差异。在数据科学实 ...

阅读全文 »

机器学习系列文章-集成学习综述

发表于 2018-06-09 | 更新于 2022-10-25 | 分类于 machine learning |

本文字数： 22k | 阅读时长 ≈ 20 分钟

文章分为两个部分：第一部分，介绍集成学习的理论原理。第二部分，实践部分。主要使用sklearn封装的包。第一部分理论原理什么是集成学习首先集成学习（ensemble learning）不是具体的算法，应该算一种算法思想（Algorithm Framework，类比EM ...

阅读全文 »

5分钟介绍深度学习（科普）

发表于 2018-04-16 | 更新于 2022-10-25 | 分类于 network |

本文字数： 3.5k | 阅读时长 ≈ 3 分钟

历史背景最近几年Deep Learning、AI人工智能、机器学习等名词称为新闻热点，特别是Google Deep mind的Alpha Go战胜韩国棋手李世石，让深度学习妇孺皆知。首先从概念范畴上讲，deep learning属于机器学习的一个分支，追根溯源其实是人工神经网络。顾名思义，人工神经 ...

阅读全文 »