Statistics-CheatSheet
Mathematics CheatSheet | 机器学习、深度学习中的数学基础
实际上,概率统计知识和数据科学家的日常工作,以及一个人工智能项目的正常运作都密切相关,概率统计知识正在人工智能中发挥着越来越重要的作用。
和机器学习一样,概率统计各个领域的知识以及研究成果浩如烟海。
概率和统计可以说是机器学习领域的基石之一,从某个角度来看,机器学习可以看做是建立在概率思维之上的一种对不确定世界的系统性思考和认知方式。学会用概率的视角看待问题,用概率的语言描述问题,是深入理解和熟练运用机器学习技术的最重要基础之一。
对于离散数据,伯努利分布、二项分布、多项分布、
信息论也是必须掌握的基础
微积分
两边夹定理
夹逼定理英文原名
当
$$ \lim_{x->x_0}f(x)=A $$
极限存在定理
单调有界数列必有极限
导数
简单来说,导数就是曲线的斜率,是曲线变化快慢的反应。而二阶导数是斜率变化快慢的反应,表征曲线的凹凸性。

Taylor 公式- Maclaurin 公式
$f(x) = f(x_0) + f’(x_0)(x-x_0) + \frac{f’’(x_0)}{2!}(x-x_0)^2 + \cdots + \ \frac{f^{(n)}(x_0)}{n!}(x-x_0)^n + R_n(x)$
而
$f(x) = f(0) + f’(0)x + \frac{f’’(0)}{2!}x^2 + \cdots + \frac{f^{(n)}(0)}{n!}x^n + o(x^n)$
方向导数
如果函数
$\frac{\partial f}{\partial l} = \frac{\partial f}{\partial x}cos\varphi + \frac{\partial f}{\partial y}sin\varphi$
其中,
梯度
梯度的方向是函数在该点变化最快的方向。梯度经常用在梯度下降法中。设函数
凸函数
割线位于函数之上。
$\forall x,y \in dome, 0 \le \theta \le 1$,有
$f(\theta x + (1 - \theta)y) \le \theta f(x) + (1 - \theta)f(y)$
凸函数在高等数学中有时候被称为凹函数,但是在机器学习中统一称为凸函数。一元二阶可微的函数在区间上是凸的,当且仅当它的二阶导数是非负的。
概率论
对于概率的认知:$P(x) \in [0,1]$,需要注意的是,
累积分布函数:$\phi(x) = P(x \le x_0 )$
$\phi(x)$ 一定为单调递增函数- $min(\phi(x)) = 0$,$max(\phi(x))$ = 1
- 将值域为
$[0,1]$ 的某函数$y=f(x)$ 看成y 事件的累积概率,若$y$ 可导,则称$f ’(x)$ 为某个概率的概率密度函数
古典概型
几何概型
概率公式
- 条件概率
$P(A|B) = \frac{P(AB)}{P(B)}$
- 全概率公式
$P(A) = \sum_iP(A|B_i)P(B_i)$
- 贝叶斯公式
$P(B_i|A) = \frac{P(AB_i)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum_jP(A|B_j)P(B_j)}$

上述公式中的
参数估计
给定某系统的若干样本,求该系统的参数。
- 矩估计
/MLE/MaxEnt/EM
频率学派:假定参数是某个
- 贝叶斯模型
贝叶斯学派:假定参数本身是变化的,服从某个分布。求在这个分布约束下使得某目标函数极大
常见分布
两点分布(0-1 分布)
已知随机变量
$X$ | 1 | 0 |
---|---|---|
$p$ | $p$ | $1-p$ |
则有
$D(X) = E(X^2) - [E(X)]^2 = pq$
数理统计与参数估计
某个分布的期望,对于离散型而言:
$E(X)=\sum_i{x_i}{p_i}$
连续型:$E(X)=\sum_{-\infty}^{\infty}xf(x)dx$
概率运算中无条件成立的是:
$E(kX)=kE(X)$
$E(X+Y)=E(X)+E(Y)$
如果
$E(XY)=E(X)E(Y)$
反之不成立,事实上,如果
$Var(X)=E{[X-E(X)]^2}=E(X^2)-E^2(X)$
无条件成立:
$Var(c)=0$
$Var(X+c)=Var(X)$
$Var(kX)=k^2Var(X)$
协方差
$Cov(X,Y)=E{[X-E(X)][y-e(y)]}$
性质
$Cov(X,Y)=Cov(Y,X)$
$Cov(aX+b,cY+d)=acCov(X,Y)$
$Cov(X_1+X_Y)=Cov(X_1,Y)+Cov(X_2,Y)$
$Cov(X,Y)=E(XY)-E(X)E(Y)$
如果
协方差是两个随机变量具有相同方向变化趋势的度量:
如果
如果
如果
相关系数
定义:$\rho=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$,根据协方差的定义可知:$|\rho|\leq1$
当且仅当
矩
对于随机变量
$E(X^k)$
偏度

偏度衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量。偏度的值可以为正,可以为负或者无定义。偏度为负
偏度为零表示数值相对均匀地分布在平均值的两侧,但不一定意味着一定是对称分布。偏度有时候用
$\gamma_1=E[\lgroup\frac{X-\mu}{\sigma}\rgroup^3]=\frac{E[(X-\mu)^3]}{(E[(X-\mu)^2])^{3/2}}=\frac{E[X^3]-3\mu\sigma^2-\mu^3}{\sigma^3}$
峰度
峰度是概率密度在均指处峰值高低的特征,通常定义四阶中心矩除以方差的平方减
$$ \gamma2=\frac{\kappa_4}{\kappa_2^2}=\frac{\mu_4}{\sigma^4}-3=\frac{\frac{1}{n}\sum{i=1}^n(xi-\bar x)^4}{(\frac{1}{n}\sum{i=1}^n(x_i-\bar x)^2)^2}-3 $$
注意,减
切比雪夫不等式
假设随机变量
$P{|X-\mu|\geq\varepsilon}\le\frac{\sigma^2}{\varepsilon^2}$
切比雪夫不等式说明,
大数定理
假设随机变量
$Yn=\frac{1}{n}\sum{i=1}^{n}X_i$
,则对于任意整数
$lim_{n \to \infty}P{|Y_n-\mu|<\varepsilon}=1$
一次试验中事件
$lim_{n \to \infty}P{|\frac{n_A}{n}-p|<\varepsilon}=1$
中心极限定理
假设随机变量
$Yn=\frac{\sum{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma}$
的分布收敛到标准正态分布,也就是说,
样本的统计量
设
$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$
样本方差:
$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$
样本方差的分母使用
参数估计
矩估计
设总体的均值为
$$ \left{ \begin{array}{c} E(X)=\mu \ E(X^2)=Var(X)+[E(X)]^2=\sigma^2+\mu^2 \end{array} \right. $$
根据该总体的一组样本,求得原点距:
$$ \left{ \begin{array}{c} \hat{\mu} = \bar{X} \ \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 \end{array} \right. $$
极大似然估计(MLE)
极大似然估计来源于对于贝叶斯公式的抽象,给定某些样本
$maxP(A_i|D) \to maxP(D|A_i)$
假设总体分布为
$L(x1,x_2,\dots,x_n;\theta_1,\theta_2,\dots,\theta_k)=\prod{i=1}{n}f(x_i;\theta_1,\theta_2,\dots,\theta_k)$
这里
$logL(\theta1,\theta_2,\dots,\theta_k)=\sum{i=1}^{n}f(x_i;\theta_1,\theta_2,\dots,\theta_k)$
$\frac{\partial L(\theta)}{\partial \theta_i}=0,i=1,2,\dots,k$
二项分布的极大似然估计
投硬币实验中,进行
$f(n|p)=log(p^n(1-p)^{N-n}) {\to}h(p)$
$\frac{\partial h(p)}{\partial p}=\frac{n}{p}-\frac{N-n}{1-p} \to 0$
$p=\frac{n}{N}$
正态分布的极大似然估计
$$ l(x)=log\prod_i \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} \ =\sum_i log \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} \ = -\frac{n}{2}log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_i{(x_i-\mu)^2} $$
得到目标函数之后,将目标函数对于参数
$$ \mu = \frac{1}{n}\sum_ix_i \ \sigma^2=\frac{1}{n}\sum_i(x_i-\mu)^2 $$
这个结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差。注意,经典意义下的方差,分母是
参数估计的无偏性
利用已知样本
一般来说,样本均值和方差都是总体的无偏估计。假设总体均值为
$$ \bar X=\frac{1}{n}\sum*{i=1}^nX_i \ S^2=\frac{1}{n-1}\sum*{i=1}^{n}(X_i-\bar X^2) \ E(\bar X)=\mu \ $$

上面是论述了当求样本方差为
$$ E(\bar X^2)=Var(\bar X) + [E(\bar X)]^2=\frac{\sigma^2}{n}+\mu^2 \ E(Xi^2)=Var(X_i)+[E(X_i)]^2=\sigma^2 + \mu^2 \ E(S^2)=\frac{1}{n-1}[E(\sum{i=1}^{n}X_i^2)-nE(\bar X^2)]= \ \frac{1}{n-1}[(n\sigma^2 + n\mu^2)-n(\frac{\sigma^2}{n} + \mu^2)] \ = \sigma^2 $$
线性代数
方阵的行列式定义如下:
$1$ 阶方阵的行列式为该元素本身$n$ 阶方阵的行列式等于它的任一行或者列的各元素与其对应的代数余子式乘积之和。
矩阵
矩阵运算
矩阵模型
考虑某个随机过程
任何一个矩阵模型,即转移概率模型都会达到一种平稳分布的状态,即
$$ lim*{n \to \infty}P*{ij}^{n}=\pi(j) \ lim_{n \to \infty}P^n = \begin{bmatrix} \pi(1) & \pi(2) & \dots & \pi(n)\ \pi(1) & \pi(2) & \dots & \pi(n)\ \vdots & \vdots & \ddots & \vdots \end{bmatrix} \quad $$
线性方程
矩阵乘法
$c*{ij}=\sum*{k=1}^sa*{ik}b*{kj}$
矩阵的秩
在
$$ \left{ \begin{array}{c} a*{11}x_1+a*{12}x2+ \dots + +a{1n}xn=b_1\ a{11}x1+a{12}x2+ \dots + +a{1n}xn=b_1\ \dots \ a{11}x1+a{12}x2+ \dots + +a{1n}x_n=b_1\ \end{array} \right. \to Ax=b $$
对于
- 无解的充要条件是
$R(A)<R(A,b)$ - 有唯一解的充要条件是
$R(A)=R(A,b)=n$
- 有无限多解的充要条件是
$R(A)=R(A,b)<n$
向量组
向量组等价
向量
$$ (b1 b_2 \dots b_n) = (a_1 a_2 \dots a_n) \begin{bmatrix} k{11} & k*{12} & \dots & k*{1n}\ k*{21} & k*{22} & \dots & k_{2n}\ \vdots & \vdots & \ddots & \vdots \end{bmatrix} \quad $$
向量组
特征值与特征变换
正交阵
如果
特征值与特征向量
$$ \lambda1+\lambda_2+,\dots,+\lambda_n=a{11}+a*{22}+\dots+a*{nn} \ \lambda_1 \lambda_2 \dots \lambda_n = |A| $$
矩阵