MachineLearning-CheatSheet
Machine Learning CheatSheet | 机器学习概念、基础理论与常用算法速览
对于某给定的任务

判别式模型
简单来讲,前者不依赖于数据,能精确的解决问题;后者依赖于数据,目的是找到一个可接受的解。
经典排序或者搜索算法中的快排、堆排、二叉、
第一个
人工智能的研究从以推理为重点到以知识为重点,再到以学习为重点,是有一条自然、清晰的脉络。人工智能出身的机器学习研究者,绝大部分 是把机器学习作为实现人工智能的一个途径,正如
第二个
这群人可能对人工智能毫无兴趣,在他们眼中,机器学习就是统计学习,是统计学比较偏向应用的一个分支,充其量是统计学与计算机科学的交叉。这群人对统计学习之外的学习手段往往是排斥的,这很自然,基于代数的、逻辑的、几何的学习,很难纳入统计学的范畴。
两个群体的文化和价值观完全不同。第一个群体认为好的工作,对于第二个群体而言可能觉得没有技术含量,但第一个群体可能恰恰认为,简单的才好,正因为很好地抓住了问题本质,所以问题变得容易解决。第二个群体欣赏的工作,第一个群体可能觉得是故弄玄虚,看不出他想解决什么人工智能问题,根本就不是在搞人工智 能、搞计算机,但别人本来也没说自己是在搞人工智能、搞计算机,本来就不是在为人工智能做研究。两个群体各有其存在的意义,应该宽容一点,不需要去互较什么短长。但是既然顶着
- 加强概率与统计的基础课程,建议采用莫里斯
· 德格鲁特(Morris H.DeGroot) 和马克· 舍维什(Mark J.Schervish) 合著的第四版《概率论与数理统计》(Probability and Statistics) 为教材。 - 在线性代数课程里,加强矩阵分析的内容。教材建议使用吉尔伯特
· 斯特朗(Gilbert Strang) 的《线性代数导论》(Introduction to Linear Algebra)。吉尔伯特· 斯特朗在麻省理工学院一直讲述线性代数,他的网上视频课程堪称经典。后续建议开设矩阵计算,采用特雷费森· 劳埃德(Trefethen N.Lloyd) 和戴维· 鲍(David Bau lll) 著作的《数值线性代数》(Numerical Linear Algebra) 为教科书。 - 开设机器学习课程。机器学习有许多经典的书籍,但大多不太适宜做本科生的教材。最近,麻省理工学院出版的约翰
· 凯莱赫(John D.Kelleher) 和布瑞恩· 麦克· 纳米(Brian Mac Namee) 等人著作的《机器学习基础之预测数据分析》(Fundamentals of Machine Learning for Predictive Data Analytics ),或者安得烈· 韦伯(Andrew R.Webb) 和基思· 科普塞(Keith D.Copsey) 合著的第三版《统计模式识别》(Statistical Pattern Recognition ) 比较适合作为本科生的教科书。同时建议课程设置实践环节,让学生尝试将机器学习方法应用到某些特定问题中。 - 开设数值优化课程,建议参考教材乔治
· 诺塞达尔(Jorge Nocedal) 和史蒂芬· 赖特(Stephen J.Wright) 的第二版《数值优化》(Numerical Optimization ),或者开设数值分析,建议采用蒂莫西· 索尔的《数值分析》(Numerical Analysis) 为教材。 - 加强算法课程,增加高级算法,比如随机算法,参考教材是迈克尔
· 米曾马克(Michael Mitzenmacher) 和伊莱· 阿普法(Eli Upfal) 的《概率与计算: 随机算法与概率分析》(Probability and Computing: Randomized Algorithms and Probabilistic Analysis)。 - 在程序设计方面,增加或加强并行计算的内容。特别是在深度学习技术的执行中,通常需要
GPU 加速,可以使用戴维· 柯克(David B.Kirk) 和胡文美(Wen-mei W.Hwu) 的教材 《大规模并行处理器编程实战》( 第二版)(Programming Massively Parallel Processors:A Hands-on Approach,Second Edition ) ;另外,还可以参考优达学城(Udacity) 上英伟达(Nvidia) 讲解CUDA 计算的公开课。
在机器学习领域称为流形学习(Manifold learning
传统机器学习的流程一般由两个主要的模块组成。第一个模块称为特征工程,将原始输入数据(高维向量)变换为一个低维向量,即,用这个低维向量来作为表达输入数据的特征(或描述子,feature or descriptor
由于这种特征是通过人为设计的算法来得到的,因此这种特征称为人工特征(Hand-crafted features
第二个模块称为预测模型,即选用什么样的预测方法来拟合给定的数据,我们前面所讲的拟合就是指这个过程。预测模型的目标就是希望学习到的模型在预测未知目标时越精确越好。一般要考虑模型的复杂度及精确度等因素。在机器学习领域有非常多的方法,这里不一一介绍。
拟合函数所带的参数的个数与样本数据的个数之间的差代表着这个拟合函数的“自由度”。网络越来越“深”后,拟合模型中的可调整参数的数量就非常大,通常能达到百万计甚至几十亿级。因此,层数很大的深度网络(模型过于复杂)能够表达一个自由度非常大的函数空间,甚至远高于目标函数空间(过完备空间
模型评估与正则化
机器学习的算法或者模型的分类有很多种,其中有一种分法把模型分为
给定某系统的若干样本,求取该系统的参数,主要分为频率学派与贝叶斯学派。
频率学派
假定参数是某个或者某些未知的定值,求这些参数如何取值,能够使得某目标函数取得极大或者极小值,典型的代表有矩估计、MLE、
贝叶斯学派
基于贝叶斯模型,假设参数本身是变化的,服从某个分布。求在这个分布约束下使得某目标函数极大
算法模型
判别式模型与生成式模型
有监督模型与无监督模型
数据拟合
在科学技术的各领域中,我们所研究的事件一般都是有规律(因果关系)的,即自变量集合
但是,很多工程问题难以直接推导出变量之间的函数表达式;或者即使能得出表达式,公式也十分复杂,不利于进一步的分析与计算。这时可以通过诸如采样、实验等方法获得若干离散的数据(称为样本数据点
根据

Loss Function | 损失函数
Model Evaluation | 模型评估
Overfitting & Regularization | 过拟合与正则化
Classification: 分类
分类问题的核心即是希望能够在特征空间内寻找一条决策边界线或者是一条曲线,来将特征空间里区分为我们想要的类别。在分类算法领域,最常见的即是
Condition: A Not A
Test says “A” True positive (TP) | False positive (FP)
----------------------------------
Test says “Not A” False negative (FN) | True negative (TN)
-
TP– 将正类预测为正类数;
-
FN– 将正类预测为负类数;
-
FP– 将负类预测为正类数;
-
TN– 将负类预测为负类数;
-
准确率
(Precision ,$P$) 定义为被正确预测为正例的数目占所有被预测为正例的数目的比重: $$ P = \frac{T_p}{T_p + F_p} $$ -
召回率
(Recall ,$R$) 定义为被正确预测为正例的数目占所有实际正例数目的比重: $$ R = \frac{T_p}{T_p + F_n} $$ -
F1 则是相对综合的评价值,定义为了准确率与召回率的调和平均数: $$ F1 = 2 \frac{P * R}{P + R} $$
当量化算法的好坏时,首先需要看以下几个指标:
- True Positives(TP):即实际为正例且被分类器划分为正例的样本数;
- False Positives(FP):即实际为负例但被分类器划分为正例的样本数;
- True Negatives(TN):即实际为负例且被分类器划分为负例的样本数;
- False Negatives(FN):即实际为负例但被分类器划分为负例的样本数;
一般进行评价时,有两个指标:
$$ accuracy = \frac{TP+TN}{P+N} $$
就是被分队的样本除以所有的样本数,通常来说,准确率越高,分类器越好。
$$ recall = \frac{TP}{TP+FN} $$
召回率是覆盖面的度量,度量有多少个正例被分为正例。
Regression: 回归模型
$$ \begin{align*} & h*{\theta}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 \ & h*{\theta}(x) = \sum_{i=0}^n \theta_i x_i = \theta^Tx \end{align*} $$
Algorithms: 算法
算法基本上从功能或者形式上来分类。比如,基于树的算法,神经网络算法。这是一个很有用的分类方式,但并不完美。因为有许多算法可以轻易地被分到两类中去,比如说
Grouped By Learning Style( 根据学习风格分类)
Supervised Learning
输入数据被称为训练数据,并且有已知的结果或被标记。比如说一封邮件是否是垃圾邮件,或者说一段时间内的股价。模型做出预测,如果错了就会被修正,这个过程一直持续到对于训练数据它能够达到一定的正确标准。问题例子包括分类和回归问题,算法例子包括逻辑回归和反向神经网络。

有监督学习的通俗例子可以以人类认知月亮的过程为例,小时候会认为黑夜里天空中明亮的圆盘状物体为月亮,后来随着时间的推移,发现圆盘状这个特点并非一个决定性因素。
Unsupervised Learning
输入数据没有被标记,也没有确定的结果。模型对数据的结构和数值进行归纳。问题例子包括

Semi-Supervised Learning

输入数据是被标记的和不被标记的数据的混合,有一些预测问题但是模型也必须学习数据的结构和组成。问题例子包括分类和回归问题,算法例子基本上是无监督学习算法的延伸。
Grouped By Similarity( 根据算法相似度分类)
Regression Algorithms

Regression is concerned with modelling the relationship between variables that is iteratively refined using a measure of error in the predictions made by the model.
Regression methods are a workhorse of statistics and have been cooped into statistical machine learning. This may be confusing because we can use regression to refer to the class of problem and the class of algorithm. Really, regression is a process.
The most popular regression algorithms are:
- Ordinary Least Squares Regression (OLSR)
- Linear Regression
- Logistic Regression
- Stepwise Regression
- Multivariate Adaptive Regression Splines (MARS)
- Locally Estimated Scatterplot Smoothing (LOESS)
Instance-based Algorithms

Such methods typically build up a database of example data and compare new data to the database using a similarity measure in order to find the best match and make a prediction. For this reason, instance-based methods are also called winner-take-all methods and memory-based learning. Focus is put on representation of the stored instances and similarity measures used between instances.
The most popular instance-based algorithms are:
- k-Nearest Neighbour (kNN)
- Learning Vector Quantization (LVQ)
- Self-Organizing Map (SOM)
- Locally Weighted Learning (LWL)
Regularization Algorithms

An extension made to another method (typically regression methods) that penalizes models based on their complexity, favoring simpler models that are also better at generalizing.
I have listed regularization algorithms separately here because they are popular, powerful and generally simple modifications made to other methods.
The most popular regularization algorithms are:
- Ridge Regression
- Least Absolute Shrinkage and Selection Operator (LASSO)
- Elastic Net
- Least-Angle Regression (LARS)
Decision Tree Algorithms

Decisions fork in tree structures until a prediction decision is made for a given record. Decision trees are trained on data for classification and regression problems. Decision trees are often fast and accurate and a big favorite in machine learning.
The most popular decision tree algorithms are:
- Classification and Regression Tree (CART)
- Iterative Dichotomiser 3 (ID3)
- C4.5 and C5.0 (different versions of a powerful approach)
- Chi-squared Automatic Interaction Detection (CHAID)
- Decision Stump
- M5
- Conditional Decision Trees
Bayesian Algorithms

The most popular Bayesian algorithms are:
- Naive Bayes
- Gaussian Naive Bayes
- Multinomial Naive Bayes
- Averaged One-Dependence Estimators (AODE)
- Bayesian Belief Network (BBN)
- Bayesian Network (BN)
Clustering Algorithms

Clustering methods are typically organized by the modelling approaches such as centroid-based and hierarchal. All methods are concerned with using the inherent structures in the data to best organize the data into groups of maximum commonality.
The most popular clustering algorithms are:
- k-Means
- k-Medians
- Expectation Maximisation (EM)
- Hierarchical Clustering
Artificial Neural Network Algorithms

Artificial Neural Networks are models that are inspired by the structure and/or function of biological neural networks.
They are a class of pattern matching that are commonly used for regression and classification problems but are really an enormous subfield comprised of hundreds of algorithms and variations for all manner of problem types.
Note that I have separated out Deep Learning from neural networks because of the massive growth and popularity in the field. Here we are concerned with the more classical methods.
The most popular artificial neural network algorithms are:
- Perceptron
- Back-Propagation
- Hopfield Network
- Radial Basis Function Network (RBFN)
Deep Learning Algorithms

They are concerned with building much larger and more complex neural networks, and as commented above, many methods are concerned with semi-supervised learning problems where large datasets contain very little labelled data.
The most popular deep learning algorithms are:
- Deep Boltzmann Machine (DBM)
- Deep Belief Networks (DBN)
- Convolutional Neural Network (CNN)
- Stacked Auto-Encoders
Support Vector Machines
Ensemble Algorithms

Ensemble methods are models composed of multiple weaker models that are independently trained and whose predictions are combined in some way to make the overall prediction.
Much effort is put into what types of weak learners to combine and the ways in which to combine them. This is a very powerful class of techniques and as such is very popular.
- Boosting
- Bootstrapped Aggregation (Bagging)
- AdaBoost
- Stacked Generalization (blending)
- Gradient Boosting Machines (GBM)
- Gradient Boosted Regression Trees (GBRT)
- Random Forest
Markov

Links
模型评估与正则化
VC 维
最优化理论
绝大多数机器学习问题的解决,都可以划分为两个阶段:建模和优化。所谓建模就是后面我们会提到的各种用模型来描述问题的方法,而优化就是建模完成之后求得模型的最优参数的过程。机器学习中常用的模型有很多,但背后用到的优化方法却并没有那么多。换句话说,很多模型都是用的同一套优化方法,而同一个优化方法也可以用来优化很多不同模型。对各种常用优化方法的和思想有所有了解非常有必要,对于理解模型训练的过程,以及解释各种情况下模型训练的效果都很有帮助。这里面包括最大似然、最大后验、梯度下降、拟牛顿法、
有/ 无监督学习
在目前的工业实践中,有监督学习的应用面仍然是最广泛的,这是因为我们现实中遇到的很多问题都是希望对某个事物的某个属性做出预测,而这些问题通过合理的抽象和变换,都可以转化为有监督学习的问题。
贝叶斯模型
朴素贝叶斯有很强的假设,这个假设很多问题都不满足,模型结构也很简单,所以其优化效果并不是最好的。
分类与回归
在掌握了机器学习模型的基础流程之后,需要学习两种最基础的模型形式:线性模型和树形模型,分别对应着线性回归