概率论

我们做随机实验(ramdom trial)，记为 $E$ ，把实验的所有结果的集合叫作样本空间(sample sapce)，记为 $\Omega$ 。

随机事件(random event) 是样本空间的子集，简单称为事件。

频率 $P$

那么，我们假设在同一条件下进行了 $n$ 次实验，再假设随机事件 $A$ 在实验中发生了 $k$ 次，那么就事件的频率为 :

$$ f_n(A)=\frac{k}{n} $$

当 $n$ 很大的时候，频率 $\frac{k}{n}$ 趋于某一数值 $p$ ，则称 $p$ 为事件 $A$ 发生的概率，记为：

$$ P(A) = p $$

公理化的定义是说，$P(A)$ 满足以下公理：

非负性：$P(A)\geq0$
规范性：$P(\Omega) = 1$
可数可加性： $P(\cup ^ {\infty} _ {n=1} A_n ) = \sum ^ {\infty} _ {n=1} P(A_n) $

条件概率 $P(A|B) = \frac{P(AB)}{P(B)}$

我们说，在事件 $B$ 发生的前提下，事件 $A$ 发生的条件概率为: $$ P(A|B) = \frac{P(AB)}{P(B)} $$ 条件概率 $P(A|B)$ 满足以下公理：

对任一事件 $A$ ，有 $P(A|B) \geq 0$
$P(\Omega|B) = 1$
$P( \cup ^ {\infty} _ {i=1} A_i|B) = \sum^{ \infty } _ {i=1} P(A_i|B)$

另外，乘法公式是说，当 $P(B) > 0$ 时，则有： $$ P(AB) = P(B)P(A|B) $$

全概率公式 $P(B)=\sum^{n}_{i=1}P(A_i)P(B|A_i)$

我们定义 $A_1, A_2, …, A_n$ 为样本空间 $\Omega$ 的一个划分，它满足：

划分中的任两个事件之间不相容
划分中的所有事件的总和构成样本空间

那么，这里我们认定事件 $B$ 为样本空间 $\Omega$ 中的任意事件，因为 $P(B\Omega) = P(B) * P(\Omega) = P(B) * 1 = P(B) $，所以这里给出公式推理：

$$ \begin{aligned} P(B) &= P(B\Omega)= P(B(A_1 \cup A_2 \cup \cdots \cup A_n))\\ &= P(BA_1 \cup BA_2 \cup \cdots \cup BA_n) \\ &= P(BA_1) + P(BA_2) + \cdots + P(BA_n) \\ &= P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + \cdots + P(A_n)P(B|A_n) \end{aligned} $$

贝叶斯公式 $P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_i)P(A_j)}$

贝叶斯公式由条件概率和全概率公式组合而来，推理如下： $$ \begin{aligned} P(A_i|B) &= \frac{P(A_iB)}{P(B)} = \frac{P(BA_i)}{P(B)}\ &= \frac{P(B|A_i)P(A_i)}{P(B)} \ &= \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_j)P(A_j)} \end{aligned} $$ 一般来说，我们将划分 $A_1,A_2,…,A_n$ 作为已知的结果，是说我们通过实验或者以往的信息经验之类的得到了 $P(A_j)$ 的值，所以我们称 $P(A_j)$ 为先验概率。此外，我们称 $P(A_i|B)$ 为后验概率，因为 $P(A_i|B)$ 是说在事件 $B$ 发生后，$A_i$ 再发生的概率。

通俗来说，就是我们通过了那么多的事件 $A_1,A_2,…,A_n$ 得到了结果，也就是事件 $B$ 的概率，但是我们还想要知道这个结果，也就是事件 $B$ 发生的情况下，某个 $A_j$ 发生的概率是多少这样。

分布函数 $F(x)=P\{X \leq x \}$

我们这里给出一个函数为： $$ X = X(A) $$ 这里，我们把样本空间 $\Omega$ 中的每一个结果，或者说每一个事件都放入函数里，得到一个实数，比如 $X_1 = X(A_1),X_2=X(A_2),\dots,X_n=X(A_n)$ 。

这样做的好处是，我们将一些实验的结果用数字进行替代，比如，我们要在一个装有红、绿、蓝小球的箱子里摸球，我们可以用数字来替代红、绿、蓝的结果，$X(红)=1,X(绿)=2，X(蓝)=3$。

因为我们的函数 $X$ 的值会随着实验的不同结果而变化，所以我们称 $X$ 函数为随机变量(random variable)。

当然，我们一般用区间对 $X$ 的值进行描述，因为有时候不能将每一个值都列出来，所以我们会说随机变量 $X$ 的取值落在区间 $(x_1,x_2]$ 的概率，就是要求 $P \{ x_1\leq X \leq x_2 \}$ 的值。

求 $P\{x_1\leq X \leq x_2\}$ 的值就相当于要计算 $P\{X \leq x_2\} - P\{ X \leq x_1\}$ 的值，那么就很容易知道我们其实是要研究 $P\{X \leq x \}$ 的概率问题了。因为它的值也是随着不同的 $x$ 而变化的，所以我们叫 $P\{X \leq x \}$ 为$P\{X \leq x \}$ ，这里给出它的公式： $$ F(x) = P \{X \leq x \} $$ 分布函数有以下特点：

$F(x_2) - F(x_1) = P \{x_1 < X \leq x_2 \} > 0$
$0 \leq F(x) \leq1 $

我们在这里对随机变量有个区分：

离散型随机变量：随机变量的取值为有限个或者可数无穷多个
连续型随机变量：随机变量的取值连续地充满某个区间

离散型随机变量-两点分布 $X \sim (0-1)$

当随机变量 $X$ 的取值只有 $x_1$ 和 $x_2$ 这两个结果时，它的分布为：

$$ \begin{aligned} P\{ X=x_1 \} &= p \quad , \\ P\{ X=x_2 \} &= 1 - p \quad, \quad0 < p < 1 \\ \end{aligned} $$

我们称 $X$ 服从参数为 $p$ 的两点分布，也叫 (0-1) 分布，记作 $X \sim (0-1)$。

离散型随机变量-二项分布 $X\sim b(n, p)$

当随机变量 $X$ 的分布满足： $$ P\{X=k\} = C_n^k p ^k(1-p)^{n-k} $$ 则称 $X$ 为服从参数为 $n $ , $p$ 的二项分布(binomial distribution)，记作 $X\sim b(n, p)$。

一般我们会使用 泊松(Posisson)定理 来进行近似计算，这里做个简单介绍。

设 $np_n = \lambda$ ，对任意非负整数有： $$ \lim\limits_{x\rightarrow\infty}C^k_np^k_n(1-p)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!} $$

离散型随机变量-泊松分布 $X \sim P(\lambda)$

当随机变量 $X$ 的分布满足： $$ P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!} \quad,\quad k=0,1,2,\dots, $$ 则称 $X$ 为服从参数为 $\lambda$ 的泊松分布(poisson distribution)，记作 $X \sim P(\lambda)$，其中 $\lambda$ 为常数。

概率密度函数 $f(x)$

这里介绍一个概念，概率密度函数(density sunction)。它可以用来描述随机变量 $X$ 的分布函数 $F(x)$： $$ F(x) = \int^x_{\infty}f(t)dx $$ 它有以下特点：

$f(x) \geq 0$
$\int^{{+\infty}}_{-\infty}f(x)dx = 1$
$P \{ x_1 < X <x_2 \} = F(x_2) - F(x_1) = \int^{x_2}_{x_1}f(t)dx$

连续型随机变量-均匀分布 $X\sim U(a,b)$

当随机变量 $X$ 具有概率密度：

$$ f(x)=\left\{ \begin{aligned} & \frac{1}{b-a},& a < x< b, \\\ &0,& 其他. \end{aligned} \right. $$

则称 $X$ 在区间 $(a, b)$ 上服从均匀分布(unniform distribution)，记作 $X\sim U(a,b)$

积分求得 $X$ 的分布函数：

$$ F(x)=\left\{ \begin{aligned} & 0,& x < a, \\\ & \frac{x-a}{b-a},&a \leq x < b, \\\ & 1,& x \geq b. \end{aligned} \right. $$

连续型随机变量-指数分布 $X\sim E(\lambda)$

当随机变量 $X$ 具有概率密度：

$$ f(x)=\left\{ \begin{aligned} & \lambda e^{-\lambda x}, &x > 0, \\\ &0,& x \leq 0. \end{aligned} \right. $$

则称 $X$ 服从 $\lambda$ 的指数分布(exponential distribution)，记作 $X\sim E(\lambda)$，其中 $\lambda$ 为常数。

积分求得 $X$ 的分布函数：

$$ F(x)=\left\{ \begin{aligned} & 1-e^{-\lambda x},& x > 0, \\ & 0,&x \leq 0. \end{aligned} \right. $$

连续型随机变量-正态分布 $X \sim N(\mu, \sigma^2)$

当随机变量 $X$ 具有概率密度： $$ f(x)= \frac{1}{\sqrt{2\pi}\sigma}e^{- \frac{(x-\mu)^2}{2 \sigma^2}},-\infty<x<+\infty $$ 则称 $X$ 服从参数为 $\mu$ , $\sigma$ 的正态分布(normal distribution)，记作 $X \sim N(\mu, \sigma^2)$，其中 $\mu$ 和 $\sigma (\sigma>0)$ 为常数。

积分求得 $X$ 的分布函数： $$ F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int^x_{-\infty}e^{-\frac{(t-\mu)^2}{2 \sigma^2}}dt $$ 特别的，当 $\mu=0,\sigma=1$时，我们称 $X$ 服从标准正态分布 $N(0,1)$，这时它的概率密度表示为：

$$ \varphi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2}} $$

分布函数表示为：

$$ \phi(x)=\frac{1}{\sqrt{2\pi}} \int ^x _{-\infty} e^{\frac{t^2}{2}}dt $$

一般地，若 $X \sim N(\mu, \sigma^2)$ ，那么 $\frac{X-\mu}{\sigma}\sim N(0, 1)$，我们可以通过正态函数表来计算正态分布：

$$ \begin{aligned} P \{\mu- \sigma < X < \mu + \sigma \} = \phi(1) - \phi(-1) = 2\phi(1) -1 = 0.6826 \\ P \{\mu-2 \sigma < X < \mu + 2 \sigma \} = \phi(2) - \phi(-2) = 2\phi(2) -1 = 0.9544 \\ P \{\mu-3 \sigma < X < \mu + 3 \sigma \} = \phi(3) - \phi(-3) = 2\phi(3) -1 = 0.9974 \end{aligned} $$

联合分布函数 $F(x,y) = P{ X \leq x, Y \leq y}$

在这里，我们考虑两个随机变量 $X(e)$ 和 $Y(e)$ 的组合。我们把 $(X(e), Y(e))$ 称为二维随机向量(2-dimensional random vector)，简单记作 $(X, Y)$。

显然，我们可以得到二维随机向量 $(X, Y)$ 的分布函数，或者说，随机变量 $X$ 和随机变量 $Y$ 的联合分布函数： $$ F(x,y) = P\{ X \leq x, Y \leq y\} $$

边缘分布函数 $F_X(x), F_Y(y)$

我们说到联合分布函数是二维随机变量 $(X, Y)$ 的分布函数，自然随机变量 $X$ 和 $Y$ 是有分布函数的，那么我们通过联合分布函数来求得变量 $X$ 和 $Y$ 的分布函数，就可以得二维随机变量 $(X, Y)$ 关于 $X$ 和 $Y$ 的边缘分布函数(marginal distribution function)：

$$ \begin{aligned} F_X(x) &= P\{X \leq x \} = P\{X \leq x, Y < +\infty \} = F(x, +\infty) \\ F_Y(y) &= P\{Y \leq y \} = P\{X < +\infty, Y \leq y \} = F(+\infty, y) \end{aligned} $$

数学期望 $E(X)$

我们现在知道一个离散型变量 $X$ 的分布律为：

$$ P\{X = x_k\} = p_k, k=1,2.\dots $$

如果满足条件 $\sum ^ {\infty} _ {k=1} x_kp_k$ 绝对收敛，那么有数学期望(mathematical expectation)，记作 $E(X)$，即： $$ E(X) =\sum^{\infty}_{k=1}x_kp_k $$

当然，如果是一个连续型的随机变量 $X$ 的话，我们就假设它有概率密度函数 $f(x)$ 。

如果满足积分 $\int^{+\infty}_{-\infty}xf(x)dx$ 绝对收敛，那么同样有数学期望为：

$$ E(X) = \int^{+\infty}_{-\infty}xf(x)dx $$

数学期望有一些性质：

$E(c) = c$ ，其中 $c$ 为常数；
$E(cX) = cE(X)$；
$E(X+Y) = E(X) + E(Y)$；
$E(XY) = E(X)E(Y)$，其中 $X,Y$ 相互独立。

	$(0-1)$分布	二项分布	泊松分布	均匀分布	指数分布	正态分布
$ E(X) $	$ p $	$ np $	$ \lambda $	$ \frac{a+b}{2} $	$ \frac{1}{\lambda} $	$ \mu $

方差 $D(X)$

数学期望描述了随机变量取值的“平均数”，而 方差(variance) 是用来度量随机变量取值的分散程度的，记作 $D(X)$，即： $$ D(X) = E[X-E(X)]^2 = E(X^2) - [E(X)]^2 $$

其中，我们称 $\sqrt{D(X)}$ 为随机变量 $X$ 的标准差(standard deviation)，或均方差(mean square deviation)，记作 $ \sigma(X)$。

方差有一些性质：

$D(c) = 0$，其中 $c$ 为常数；
$D(cX) = c^2D(X)$；
$D(X±Y) = D(X) + D(Y) ±2E[(X-E(X))(Y-E(Y))]$；
$D(X±Y) = D(X) + D(Y)$，其中 $X,Y$ 相互独立。

	$(0-1)$分布	二项分布	泊松分布	均匀分布	指数分布	正态分布
$ D(X) $	$ p(1-p) $	$ np(1-p) $	$ \lambda $	$ \frac{(a+b)^2}{12} $	$ \frac{1}{\lambda^2} $	$ \sigma^2 $

协方差 $cov(X, Y)$

数学期望和方差反映的都是随机变量自身的内容，这里我们考虑随机变量相互之间的影响，一般会使用协方差(convariance) 来描述，即：

$$ cov(X, Y) = E{[X-E(X)][Y-E(Y)]} $$ 其中，我们称 $\frac{cov(X, Y)}{\sqrt{D(X)}{\sqrt{D(Y)}}}$ 为随机变量 $X,Y$ 的相关系数(correlation corfficient)，或标准协方差(standard convariance)，记作 $\rho_{XY} $，即：

$$ \rho_{XY} =\frac{cov(X, Y)}{\sqrt{D(X)}{\sqrt{D(Y)}}} $$

一些实用的计算公式：

$$ D(X±Y) = D(X) + D(Y) ± 2cov(X, Y) \\ cov(X, Y) = E(XY) - E(X)E(Y) $$