精通数据科学(3)第3章 数学基础:概率—量化随机

概率是量化事物随机性或者可能性的数学工具, 但遗憾的是,概率或者随机本身是数学里人类理解最差的分支。

在通常情况下,可以将概率从直观上理解为事件发生的比例。如图,向图中的方形框随机投掷小球,那么小球落入圆圈的概率就等于圆圈的面积除以方形框的面积。

概率对数据科学尤其重要,举两个常见的例子:

  • 在搭建模型时,带有一些随机性的模型和算法往往预测效果会好于完全确定性的模型和算法;
  • 在异常检测时,理解概率能帮助我们区分真正的异常和正常情况下的随机扰动。

1. 定义概率:事件和概率空间

我们首先从掷骰子这个常见的例子中引出概率的定义。

假设我们连续随机地掷两次骰子,并计算两次所得点数的和。记第一次掷骰子得到的点数为 $X_1$,第二次的点数为 $X_2$,两次点数之和为 $XX=X_1+X_2$。容易得到 $XX$ 可能的取值为 2~12。

将 $XX=i$ 记为事件 $E_i$。

但其实上面列举的事件还可以划分为更加细小的随机样本,比如 $XX=3$ 对应的事件 $E_3$ 可以分解为两个事件:

  • 一是第一次点数是 1,第二次点数是 2,记为(1,2);
  • 二是第一次点数是 2,第二次点数是 1,记为(2,1)。

整个过程如图所示。将事件 $E_i$ 发生的概率记为 $P(E_i)$,则

$$P(E_3)=P((1,2)\cup (2,1))=P((1,2)) + P((2,1))=\frac{1}{6} \times\frac{1}{6} + \frac{1}{6} \times\frac{1}{6} =\frac{1}{18} $$

将上面例子中的方法推广到一般情况,给出概率的定义: 将所有不能再分的随机结果,记为 $w$,放在一起组成一个可数的非空集合,这个集合就叫作样本空间(sample space),记为 $S$。样本空间里的子集被称为事件。而概率是一个定义在样本空间上的实数函数,记为 $P$,它满足下面两个条件:

  • $P(w) \geq 0$,对于所有的 都成立
  • $\sum_{w \in S}P(w)=1$

对于一个事件 $E$,对应的概率为 $P(E)=\sum_{w \in E}P(w)$。

一个样本空间加上在其基础上定义的概率就成为一个概率空间。根据概率的定义,可以得到如下的公式,其中 $A,B$ 均为随机事件,而 $A^c$ 表示事件 的补集:

$$0 \leq P(A) \leq 1$$

$$P(A^c)=1-P(A)$$

$$P(A \cup B)=P(A) + P(B) - P(A \cap B)$$

概率严格定义为,它是定义在概率空间上一种度量,也就是从样本事件到实数的函数。 这个函数满足所谓的柯尔莫果洛夫公理(Kolmogorov Axioms)。具体地,假设 $P$ 为概率:

  • 对于任意一个事件 $E$,则 $P(E) \geq 0$
  • 对于所有可能事件的集合 $\Omega$,则 $P(\Omega)=1$
  • 任意两两互不相交的事件可数序列 $E_1,E_2,……$,则 P$(E_1 \cup E_2 \cup ……)=\sum P(E_i)$

2. 条件概率:信息的价值

假设事件 $A$ 和 $B$ 是两个不同的事件,它们俩同时发生的概率为 $P(A \cap B)$。这个概率与两个事件单独发生的概率有什么联系吗?

我们定义随机事件的条件概率如下公式所示。其中 $P(A|B)$ 表示在事件 $B$ 发生的情况下,事件 $A$ 发生的可能性,称为条件概率。$P(B|A)$ 的含义类似。

$$P(A|B)=P(A\cap B)/P(B)$$

$$P(B|A)=P(A\cap B)/P(A)$$

将以上公式中的两个条件概率结合起来,替换掉 $P(A\cap B)$ 就可以得到所谓的贝叶斯定理:

$$P(B|A)=P(A|B)P(B)/P(A)$$

$$P(A|B)=P(B|A)P(A)/P(B)$$

示例,假设在一个大学的班级里:

  • 来自重庆的学生比例为 10%,而这批学生中喜欢吃辣的比例为 90%;
  • 剩下的来自其他地区的学生占比 90%,他们当中喜欢吃辣的比例为 30%。

如果用 $A$ 表示某学生来自重庆,$B$ 表示该学生喜欢吃辣。

  • 在没有任何其他信息的条件下,一个学生来自重庆的概率为 10%,即 $P(A)=0.1$
  • 但如果我们知道了这个学生喜欢吃辣,那么显然他来自重庆的比例会上升,因为重庆人更喜欢吃辣。也就是说,喜欢吃辣这条信息对判断他是否来自重庆是有价值的,但应该如何量化它呢?我们可以通过条件概率来量化吃辣这条信息的价值。具体地,根据贝叶斯定理可以得到 $P(A|B)=0.25$。通俗来讲就是,知道这个学生喜欢吃辣后,他来自重庆的概率从 10% 上升到了 25%。这就是从信息中得到的价值。

$$P(B)=P(A \cap B) + P(A^c \cap B) = 0.1 \times 0.9 + 0.9 \times 0.3 = 0.36$$

$$P(A|B)=P(B|A)P(A)/P(B)=0.9 \times 0.1/0.36=0.25$$

上面的例子告诉我们,条件概率 $P(A|B)$ 和事件原本概率 $P(A)$ 之间的差异体现了发生事件 $B$ 这条信息对事件 $A$ 是否发生的价值。

如果条件概率等于原本的概率,即 $P(A|B)=P(A)$(在这种条件下,很容易推出 $P(B|A)=P(B)$),则称事件 $A,B$ 相互独立。换句话说,事件 $A$ 与事件 $B$ 毫无联系,前者发生与否不会影响后者的发生。

$$P(B|A)=P(A|B)P(B)/P(A)=P(A)P(B)/P(A)=P(B)$$

当两个事件相互独立时,可以推出 $P(A\cap B)=P(A)P(B)$。在此基础上,定义任意多个相互独立的事件:假设 $A_1,A_2,……A_n$ 是一系列随机事件,这些事件都是相互独立的当且仅当对其任一有限子集 $A_{i1},A_{i2},……A_{in}$,都满足 $P(A_{i1} \cap A_{i2} \cap …… \cap A_{in})= P(A_{i1})P(A_{i2})…… P(A_{in})$

3. 随机变量:两种不同的随机

将随机事件进一步量化,在其基础上定义随机变量:将随机事件映射为数字(常为实数)的函数。(严格的数学定义要求函数为可测函数。可测函数是测度论里面的一个数学概念,比较复杂且与数据科学关系不大,因此不做展开。)

比如掷筛子示例中的变量,即两次点数之和,就是一个随机变量。在随机变量的基础上,可以更方便地进行概率计算。

随机变量按取值的不同,可分为离散型随机变量和连续型随机变量。

离散型随机变量的取值是离散的,比如上面提到的 $XX$,它可能的取值为离散的自然数,大于等于 2 且小于等于 12。

对于一个离散型随机变量 $X$,假设它可能的取值记为 $x_1,x_2,……x_n$。$X$ 的随机性可由 概率分布函数(probability distribution function)描述,具体的定义由如下公式所示:

$$P(x_i)=p_i$$

连续型随机变量的取值是连续的。也就是说在一定范围内,它可以是其中的任意值,比如人体的身高。

对于一个连续的随机变量,它的随机性可由 概率密度函数(probability density function)描述,它的定义由如下公式(3-24)所示(公式中涉及的微积分请参考微积分章节):

$$P(a \leq X \leq b)= \int_a^b f_X(x)dx$$

$$f_X(x)=\frac{d}{dx}P(-\infin \leq X \leq x)$$

4. 常用的函数和统计指标

在随机变量 的基础上,有如下几个常用的函数和统计指标

1. 累积分布函数(cumulative distribution function,CDF)

定义如下:

$$F_X(x)=P(X \leq x)$$

2. 期望(expected value)

这个统计量可以被直观地理解为随机变量的加权平均值,通常记为 $E[X]$。具体的计算公式如下(如果期望存在):

$$E[X] =\begin{cases}
\sum p_ix_i,X 是离散型随机变量 \
\int xf_X(x)dx,X 是连续型随机变量 \end{cases}$$

3. 方差(variance)

记为 $Var(X)$,用于度量随机变量的分散情况。它的定义公式为(如果方差存在):

$$Var(X)=E[(X-E[X])^2]=E[X^2] - (E[X])^2$$

4. 协方差(covariance)

记为 $Cov(x,y)$,用于度量两个随机变量的整体变化幅度和它们之间的相关关系。它的定义公式如下。容易看到,随机变量的方差是一种特殊的协方差。

$$Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY] - E[X]E[Y]$$

对于随机变量的期望和方差,有如下几个常用的公式:

$$E[aX+bY] = aE[X] + bE[Y]$$

$$Cov(X,X)=Var(X)$$

$$Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)$$

5. 两个随机变量间的条件概率分布

论完单个随机变量的概率分布,下面将讨论两个随机变量间的条件概率分布。假设讨论的两个随机变量分别为 $X$ 和 $Y$。

若 $X$ 和 $Y$ 都是离散型随机变量,则它们之间的条件分布用条件概率分布函数来描述,具体的定义如下:

$$P(X = {x_i}|Y = {y_j}) = P(X = {x_i},Y = {y_j})/P(Y = {y_j}) $$

若 $X$ 和 $Y$ 都是连续型随机变量,则它们之间的条件分布用条件概率密度函数来描述,具体的定义如下。其中 $f_{X,Y}$ 是变量 $X$ 和 $Y$ 的联合概率密度函数 [12],$f_{X}$ 是变量 $X$ 的概率密度函数。

$$f_{Y|X}(y|X=x)=f_{X,Y}(x,y)/f_X(x)$$

若 $X$ 和 $Y$ 中有一个是离散型随机变量,另一个是连续的,则按上面的方式类似地定义。严格的数学定义涉及的实变函数比较复杂,而且在实际中也不常接触到,因此就不做详细讨论了。

联合概率密度函数的定义如下:假设 $X$ 和 $Y$ 是两个连续型随机变量。若函数 $f_{X,Y}$ 满足下面的公式,则称 $f_{X,Y}$ 为随机变量 $X$ 和 $Y$ 的联合概率密度函数:

$$P(a \leq X \leq b,c \leq Y \leq d)=\int_c^d\int_a^bf_{X,Y}dxdy$$

6. 相互独立的随机变量

同相互独立的随机事件类似,下面将定义相互独立的随机变量,它在数据科学的模型中使用非常广泛。

对于一个随机变量 $X$ 和一个实数 $X$,$X$ 是否小于 $X$ 就定义了一个随机事件,记为 $X <a$。然后 基于这些随机事件的相互独立性,就可以定义随机变量是否独立。

具体地,假设 $X_1,X_2,……X_n$ 是一系列随机变量,对于其中任一有限子集 $X_{i1},X_{i2},……X_{in}$ 以及任意数字子集 $a_{i1},a_{i2},……a_{in}$,若随机事件 $[X_{i1} \leq a_{i1}],[X_{i2} \leq a_{i2}],……,[X_{in} \leq a_{in}]$ 是相互独立的,则随机变量 $X_1,X_2,……X_n$ 是相互独立的。

如果随机变量是相互独立的,则它们的概率分布和统计指标的计算会比较简便。为了表述简洁,这里仅以两个独立的随机变量为例(记为 $X,Y$),多个随机变量的情况类似。

$$P(X=x_i,Y=y_i)=P(X=x_i)P(Y=y_i) 或 f_{X,Y}=f_Xf_Y$$

$$E[XY]=E[X]E[Y]$$

$$Var(aX + bY) =a^2Var(x) + b^2Var(Y)$$

7. 正态分布:殊途同归

一个非常重要的概率分布:正态分布(normal distribution,也称为高斯分布 Gaussian distribution)。若随机变量 $X$ 服从正态分布,则它是一个连续型随机变量,相应的概率密度函数如下:

$$f(x)=\frac{1}{\sqrt{2 \pi \sigma^2}}e \frac{-(x-\mu)^2}{2 \sigma ^2}$$

公式中的 $\mu,\sigma ^2$ 是概率分布的参数,可以证明随机变量 $X$ 的期望等于 $\mu$,方差等于 $\sigma^2$,通常将其记为 $X \sim \mathcal{N}(\mu,\sigma ^2)$

$$E[X]=\mu$$

$$Var(X)=\sigma ^2$$

当 $mu=0,\sigma ^2=1$ 时,我们称其为标准正态分布。可以证明随机变量 $(X-\mu)/\sigma$ 服从标准正态分布,即 $(X-\mu)/\sigma\sim \mathcal{N}(0,1)$。

不同参数下,正态分布的概率密度函数曲线如图所示,参数 $\mu$ 将决定曲线的中心位置,而参数 $\sigma^2$ 决定曲线的平坦程度。这个值越大,概率密度曲线越平坦。

8. 正态分布与中心极限定理

在实际中,我们发现有很多随机变量都大致服从正态分布,因此这个分布的应用非常广,比如在搭建模型时,通常会假设模型的随机扰动项服从正态分布。这个假设并不总是符合现实情况,这会导致模型的效果并不好,甚至会模型得出错误的结论。很多模型的改进和创新也是基于对这一假设改进,相关的讨论将在后面章节展开。

为什么正态分布会如此广泛地存在呢?下面给出一个比较合理的猜测:中心极限定理(central limit theorem)。

假设随机变量 $X_1 ,X_2 ,……,X_n$ 独立同分布(independent and identically distributed,缩写为 i.i.d),且具有有限的期望和方差,记为。数学上可以证明如下的定理:

如果随机变量 $X_1 ,X_2 ,……,X_n$ 不相互独立,则中心极限定理不再成立。 可以考虑如下的反例:假设 $X$ 是均匀的 -1,1 分布,即 $P(X_1=-1)=P(X_1=1)=0.5$。而对于 $i>1$,随机变量 $X_i=X_1$,那么 $X_i$ 也是均匀的 -1,1 分布。但 $\frac{1}{n}\sum_{i=1}{n}X_i$ 等于 1 或者 -1。显然这个概率分布不会逼近正态分布。

$$\overline{X}=\frac{1}{n}\sum_{i=1}^nX_n$$

$$T_n=\sqrt{n}(\frac{\overline{X}-m}{v})$$

$$\lim_{n \rightarrow \infty}T_n\sim \mathcal{N}(0,1)$$

公式表示在一定条件下,不管随机变量的分布如何,它们的和经过一定的线性变换后会逼近一个标准正态分布。可以形象地理解为,一定量的随机效应叠加起来就近似服从正态分布

以下图为例:一个骰子的点数近似于均匀分布;两个骰子点数之和的分布曲线近似于一个等边三角形;随着骰子数量的增多,点数之和的分布曲线就越来越接近于一个正态分布。

在现实中,很多观察到的随机变量实际上正是多个独立同分布的随机变量叠加起来的结果,因此根据中心极限定理,它会大致服从一个正态分布。

9.P-value:自信的猜测

我们以正态分布为例,讨论一个在数学上很简单,但在统计学里应用非常广泛的一个概念:P 值(P-value)。P 值在数学上对应着分位数方程(quantile function),先来看看这个数学概念。

不妨设 $X$ 是一个实数随机变量,而 $P$ 是 (0, 1) 区间内的一个实数。则它的分位数方程定义为:

$$Q(p)=inf{x \in R,p \leq P(X\leq x)}$$

即 $Q(p)$ 为累积概率大于等于 $p$ 值的最小实数。

举一个简单的例子来展示这个定义,假设 $X$ 是一个骰子的点数,那么它在 1~6 的自然数上均匀分布,即 $P(X=i)=\frac{1}{6},i=1,2,……6$。如果 $p=0.5$,比较容易可以得到:$P(X\leq 3)=\frac{3}{6}=0.5$、$P(X\leq 4)=\frac{4}{6}$ 以及 $P(X\leq 2)= \frac{2}{6}$,所以。以此类推,可以得到如下的分位数方程:

$$
Q(p) =\begin{cases}
1,0<x\leq \frac{1}{6}\
2,\frac{1}{6}<x\leq \frac{2}{6}\
3,\frac{2}{6}<x\leq \frac{3}{6}\
4,\frac{3}{6}<x\leq \frac{4}{6}\
5,\frac{4}{6}<x\leq \frac{5}{6}\
6,\frac{5}{6}<x\leq 1\
\end{cases}
$$

定义 P 值背后的思路: 对于一个服从正态分布的随机变量 $X$,它的观测值大多会落在期望周围,因为正态分布的概率密度在期望附近更大,观测值落在这个区域是更正常的事情,如图所示。由此定义 $X$ 的 $\alpha$ 置信区间($\alpha$ 通常等于 0.95 或者 0.99):概率等于 $\alpha$ 且以期望为中心的对称区域。

严谨的数学定义是:如公式所示,定义 $a$ 和 $b$,则 $X$ 的 $\alpha$ 置信区间为 $[a,b]$。也就是有 $\alpha$ 的概率,$X$ 的观测值会落到区间 $[a,b]$。

$$a=Q(0.5-\frac{\alpha}{2},b=Q(0.5+\frac{\alpha}{2})$$

换个角度来描述这个事实:$X$ 的观测值落在左边(或者右边)“尾部区域”是非常少见的情况。当概率这么小的事情发生时,我们就要反思一下是哪里出了问题。

假设观测值为 $x$,定义这个观测值对应的 P 值为 $P(X\geq x)$(若为左边尾部,则 P 值为 $P(X\leq x)$),如图所示。容易得到对于 $\alpha$ 置信区间 $[a,b]$,$a$ 和 $b$ 的 P 值都为 $\frac{1-\alpha}{2}$。

在统计分析中,常用 P 值以及相应的置信区间来进行假设检验。相关内容将在第 4、5、7 章中详细讨论。

评论(没有评论)