Fork me on GitHub

机器学习系列-什么是概率、随机变量、统计

目录

  • 背景
  • 第一部分 概率定义形式化到公理化
  • 第二部分 随机变量
  • 第三部分 概率和统计
  • 第四部分 参考文献及资料

背景

在日常生活中,人们经常会有各种关于概率的论断。例如:明天下雨的概率是1/4,明天股市上涨的概率是2/3,抛硬币出现正面的概率是1/2,等等。特别是在机器学习中,我们使用概率来度量不确定性。那么什么是概率呢?

最早概率起源于赌博游戏。在1654年,赌徒梅勒(同时也是一位业余数学家)向当时的“数学神童”帕斯卡提出了他在赌场遇到的几个不解问题。后帕斯卡与费马在日常交流的通信中,对这些问题进行了详细讨论,但二人都不愿意发表研究成果。费马与帕斯卡的通信中关于分赌注问题的讨论被公认为是概率论诞生的标志。这些问题被统一称为赌博问题。例如下面问题之一:

有两个赌徒聚众赌博。约定谁先赢 d 局就算赢了,当赌徒 A 赢 a 局 (a < d ),而赌徒 B 赢 b 局(b < d) 时。这时候突发事件,赌博被中止,问需要怎样分配赌资?

后来,惠根斯也用自己的方法解答了赌徒问题,并写成了《论赌博中的计算》一书,这是概率论最早的论著。他们的解法中引出了数学期望(mathematical expectation)这一概念,并由此奠定了古典概率的基础。因此可以说早期概率论的真正创立者是帕斯卡、费尔马和惠更斯。

第一部分 概率定义形式化到公理化

1.1 古典定义

在古典定义中,主要针对试验进行讨论,并且实验满足两个条件:

  • 试验结果是一个有限集合;
  • 每个试验结果的可能性相等;

这就是古典试验。对于古典试验中事件 $A$ ,它的概率定义为:$\mathbb{P}(A)=n/m$ ,其中n为该试验中所有可能出现的基本结果的总数目。m表示事件 $A$ 包含的试验基本结果数。现实中掷骰子就是最典型的案例。

古典定义是一个过于简单的定义模型,无法解释更为复杂的不确定现象。另外定义中出现了关键词”可能性相等”,逻辑上甚至有自己定义自己的逻辑问题。

1.2 频率、统计定义

随着经验的积累,人们逐渐认识到,在做大量重复试验时,随着试验次数的增加,一个事件出现的频率,总在一个固定值的附近。用这个固定值用来定义事件的概率,这就是频率定义。

后来有了微积分工具后,提出建立在频率理论基础上的统计概率。即计算一个事件的概率值,唯一的方式是通过对该事件进行成千上万次独立试验,例如第n次事件A发生的相对频率为 $f_n(A)$ ,随着次数的增加,相对频率会逐渐收敛于一个固定值,这个极限值定义为事件的概率值。
$$
\mathbb{P}(A)=\lim {n \rightarrow \infty} f{n}(A)
$$
事实上,这个思想就是概率论中第一个极限定理:伯努利大数定理。

但是并不是所有的事件都是可以重复试验的。例如我们评估2022年俄罗斯出兵乌克兰的概率有多大,显然无法通过统计定义进行重复试验然后计算极限,而且生活中有很多这样的例子。所以这并不是一个严谨的定义。

1.3 贝叶斯概率

统计定义认为概率是重复试验下频率的极限值。但是很多随机事件是无法重复试验的。这时候就有了贝叶斯派对概率的解释,认为概率是主观对事件发生的信念强度。这种思想本质上将概率主观化,认为概率是主观根据经验和外界数据对事件发生可能性度量。底层是人脑对数据的处理结果。事件的随机性不过是观察者掌握信息不完备所造成的,观察者所掌握的信息多寡将影响观察者对于事件的认知。

例如:2022年上海疫情爆发期间,意味着每个人被感染的概率较大,这就是一个先验判断。如果这个人抗原检测两道杠,那么确认感染的可能性就更大了,这是后验判断。

根据这个思想进而有了著名的贝叶斯公式:
$$
P(A \mid B)=\frac{P(A) P(B \mid A)}{P(B)}
$$
其中 $A$ 、$B$ 为随机事件( $P(B)$ 不为零)。 $P(A \mid B)$ 是指在事件 $B$ 发生的情况下,事件 $A$ 发生的概率,即$A$的后验概率(条件概率)。而 $P(A)$ 为先验概率。

贝叶斯的思想类似于人类大脑对应信息的处理过程,不断迭代使用后验概率,修正更新先验概率,即贝叶斯推理(Bayesian inference)。所以被广泛应用于统计和机器学习中。

1.4 概率论公理化

20世纪初,随着测度论的研究发展,为概率公理体系的建立奠定了基础。1933年苏联数学家柯尔莫哥洛夫(Kolmogorov)在他的《概率论基础》一书中,首次使用测度论将概率的定义以公理化语言进行定义,才将概率论正式纳入数学学科的研究范围,称为严谨的数学分支。

概率定义:设 $\Omega$ 为样本空间,$\mathcal{F}$ 为样本空间 $\Omega$ 上的 $\sigma$ 代数,那么定义在 $\mathcal{F}$ 上的函数 $\mathbb{P}$ 称为概率测度(即概率),如果满足下面的条件:

  • 非负性:对于任何$A \in \mathcal{F}$, $\mathbb{P}(A) \ge 0$ ;
  • 规范性:$\mathbb{P}(\Omega)=0$ ;
  • 可列可加性:对于 $\mathcal{F}$ 中互斥的可列个事件${A_i,i\ge 1}$,有:

$$
\mathbb{P}\left(\bigcup_{i\ge 1} A_{i}\right)=\sum_{i\ge 1} \mathbb{P}\left(A_{i}\right)
$$

上面定义有个测度论中的重要概念: $\sigma$ 代数。

$\sigma$ 代数:$X$ 为集合, $\mathcal{P}(X)$ 代表 $X$ 的幂集(子集全体),假设有集合 $\mathcal{F} \subseteq \mathcal{P}(X)$ 。若 $\mathcal{F}$ 满足下列条件

  • $X \in \mathcal{F}$
  • $A \in \mathcal{F} \Rightarrow A^{c} \in \mathcal{F}$
  • $A_{n} \in \mathcal{F}, \forall n \in \mathbb{N} \Rightarrow \bigcup_{n=1}^{\infty} A_{n} \in \mathcal{F}$.

则称集合 $\mathcal{F}$ 是 $X$ 的 $\sigma$-代数。在测度论里 $(X, \mathcal{F})$ 称为一个可测空间。集合 $\mathcal{F}$ 中的元素,也就是 $X$ 的某子集,称为可测集合。这里的 $\sigma$ 代数的概念限定主要解决的问题是:不可测。那是因为并不是样本空间的任意子集都是可测的。

定义中将概率定义为特殊的测度函数,没有形式化解释什么是概率对象。而是描述满足公理条件的测度就定义为概率。

第二部分 随机变量

有些读者可能对上面的概率定义很陌生。那是因为目前国内高校中概率论课程(甚至部分数学系)中介绍的概率定义并不是这样的。通常是基于随机变量的概念定义的。

随机变量定义:给定样本空间 $\Omega$,其上的实值函数 $X: \Omega \rightarrow \mathbb{R}$ 称 $X$ 为(实值)随机变量。

这不是一个严谨的定义,注意点有:

  • 随机变量是定义在样本空间 $\Omega$ 的 $\sigma$ 代数上的可测函数。大部分概率论书籍不会介绍测度论知识,所以忽略了这个可测条件,后文会讲解原因。
  • 随机变量是一个确定性函数,值并不是随机的(这个名称有一定的误导性)。

我们先看一下例子。连续掷两次硬币(正面记为$H$,反面记为$T$),容易得到样本空间为: $\Omega={ HH, HT, TH, TT }$ 。定义一个样本空间上的函数 $X$ :出现正面的数量,显然 $X$ 是一个随机变量。函数取值表如下:

随机事件 X(出现正面的数量)随机变量值 概率值
${HH}$ 2 $\mathbb{P}({HH})$ =1/4
${HT}$ 1 $\mathbb{P}({HT})$ =1/4
${TH}$ 1 $\mathbb{P}({TH})$ =1/4
${TT}$ 0 $\mathbb{P}({TT})$ =1/4

那么我们为什么需要引入随机变量这个概念了?还是上面的例子,如果我们要计算出现正面的数量为1的概率。那么首先我们要选出符合条件的随机事件全体集合,然后计算,也就是:
$$
\mathbb{P}(正面数量为1的事件集合) = \mathbb{P}({HT}\cup{TH})=\mathbb{P}({HT})+\mathbb{P}({TH})=1/4+1/4=1/2
$$
在数学上,这种列举计算是不方便的。通常数学上我们把这种集合重新编码成数值,以方便后续的计算。所以我们引入了随机变量映射函数,将样本空间和数值对应起来,即信息编码。当然编码方式有多种,尽量结合计算场景定义合适的随机变量。

捕获

如果我们引入了随机变量,计算流程变为:
$$
\mathbb{P}(X\leq1) = \mathbb{P}({HT}\cup{TH})=\mathbb{P}({HT})+\mathbb{P}({TH})=1/4+1/4=1/2
$$
由于数值映射对应后,我们可以快速找到小于等于1的事件集合。计算推导过程更为数字化,而不是集合形式化。事实上严格的表达应该是($\mathbb{P}$ 是个集合函数):
$$
\mathbb{P}(X\leq1) = \mathbb{P}({x\in \Omega|X(x)\leq1})=\mathbb{P}({x\in \Omega|X(x)=1 \ or\ X(x)=2 })
$$
其中集合 $ {x\in \Omega|X(x)\leq1}={HT}\cup{TH}$ 。

2.1 离散型随机变量

样本空间本质是一个集合,例如上面的案例样本空间集合的势(集合元素多少的度量)是4,这是有限集合。当样本空间是无限集合的时候呢?

数学上无限有两种情况:可数集合(或可列集合)和不可数集合。对于样本空间可数时,下面的 $\mathbb{P}(X\leq x)$ 仍然是可以在最样本空间中写成多个可数个集合的并集。这样仍然是可测集。

这一类随机变量我们称为离散型随机变量。常见的离散型随机变量有:0-1分布(也叫两点分布或伯努利分布)、二项分布、几何分布、泊松分布等。

2.2 连续型随机变量

而当样本空间是不可数集合时,$\mathbb{P}(X\leq x)$ 集合在样本空间中,可能是不可测集合(即不属于$\sigma$ 代数,参考上文的定义思考)。那么如何解决这个危机呢?

这时候我们加强随机变量函数的条件,要求是连续函数。在测度论中,我们有鲁津定理描述连续函数和可测函数的关系,并且有下面的推论:

推论: 对于任意开集 $G$,由连续函数反射开集的性质 $f^{-1}(G) $ 也为开集。

另外我们有个特殊的 $\sigma$ 代数:Borel 代数:

Borel代数定义:一个拓扑空间的开集全体所生成的$\sigma$代数就是borel集。显然也是可测的。

所以对于连续随机变量$X$ ,$X^{-1}((-\infin,x))$ 显然也是$R$​一个开集,borel 可测集。这样我们就解决了不可测集的危机。而这一类随机变量,我们称为连续性随机变量。常见的连续性随机变量有:均匀分布、指数分布、正态分布等。

事实上,对于随机变量函数只需要可测条件即可。实数轴上任何开区间(乃至任何开集)的原像都是可测的。更一般地,对于任何开集,通过余集、可列并集、可列交集所生成的集合(Borel集合),其原像也都是可测的。本质上,可测函数是一种几乎连续的函数,因为它的不连续部分为零测集(即测度为零的集合)。

但是实际应用中,遇到的大多函数通常都是连续函数。所以通俗概率论书籍中也不会讨论测度论(降低门槛),所以就缩小了讨论范围为连续型随机变量,而不是可测型随机变量。

第三部分 概率和统计

3.1 方法论区别

关于概率论和统计学,下图很形象的解释了两者的区别。

  • 概率论是统计学的理论基础。概率论解决的问题是:已知数据的概率分布,然后理论应用于实际数据,观测和研究数据性质。概率论的方法论属于演绎,即给定数据的概率模型,演绎出关于数据的丰富多彩的推论。
  • 统计学解决的问题是:已知部分数据(采样数据),然后推导、预测整体数据的概率分布。统计学的方法论属于归纳,通过采样数据,推断整体分布规律。

p&c

在现实世界中,大部分问题都是统计问题。由样本来推断总体的方法就叫统计推断法。

3.2 机器学习与统计

所以对于机器学习,其实我们更多是在使用统计方法。例如深度神经网络,已知采样的数据,然后构建深度网络结构(实际是非线性函数集合),然后通过性能函数挑选出最佳函数(即模型)。所以有一种观点是机器学习只是统计学的外延,披了一层华丽的外衣。

我们以监督学习为例,给定一个数据集:$(X,Y)={(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$,这里 $x_i \in R^n$ 和 $y_i \in R$ 分别是输入和输出。

3.2.1 判别模型

学习系统基于数据集构建拟合决策函数 $y=f(x)$ (非概率模型),对新的输入$x_{new}$,函数$f$ 给出预测输出 $y_{new}$。

常见模型有:神经网络、SVM支持向量机、k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、Boosting方法和条件随机场等。

3.2.2 生成模型

而生成模型是数据集学习构建联合概率分布 $P(x, y)$ 和先验概率分布 $P(x)$ ,然后通过贝叶斯公式获得条件概率分布 $P(y \mid x)$ 作为预测的模型,即得到生成模型:
$$
P(y \mid x)=\frac{P(x, y)}{P(x)}
$$
生成方法强调的是 : 通过联合概率分布 $P(x, y)$ ,继而得到后验概率分布 $P(y \mid x)$ 。

常见方法有:朴素贝叶斯、LDA、隐马尔可夫模型(HMM)、混合高斯模型。

事实上,判别模型(概率模型)中决策函数写成下面的形式: $y=f(x)=argmax_{y_i}{P(y_i \mid x)}$,其中 $P(y \mid x)$为后验概率。所以对于分类问题,判别和生成模型是统一的,

所以说从统计学角度,机器学习本质目的是获得数据的后验概率:$P(y \mid x)$ 。

第四部分 总结

本文只要介绍概率论定义从约定俗成的形式化形式化定义到公理化定义的过程。最后解释了随机变量的本质和测度论的关系。

参考文献及资料

1、维基百科词条:Probability,https://en.wikipedia.org/wiki/Probability

2、维基百科词条:Random variable,https://en.wikipedia.org/wiki/Random_variable

3、A Brief Introduction to Probability & Statistics,链接:https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/

本文标题:机器学习系列-什么是概率、随机变量、统计

文章作者:rong xiang

发布时间:2021年11月16日 - 13:11

最后更新:2022年10月25日 - 23:10

原始链接:https://zjrongxiang.github.io/posts/b5535ba2/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%