机器学习：原理简明教程01-统计学习方法概论

内容纲要

欢迎转载，作者：Ling，注明出处：机器学习：原理简明教程01-统计学习方法概论

参考《统计学习方法》

1.1 统计学习

定义:

统计学习（statistical learning) 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 统计学习也称为统计机器学习(statistical machine learning)，机器学习一般指统计机器学习。

对象:

数据,即计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合

前提: 有规律

目标: 预测与分析

方法:

监督学习(supervised learning)
非监督学习(unsupervised learning)
半监督学习(semi-supervisedlearning)
强化学习(reinforcementlearning)

三要素: 模型(model)、策略(strategy)和算法(algorithm)

步骤:

得到一个有限的训练数据集合；
确定包含所有可能的模型的假设空间，即学习模型的集合；
确定模型选择的准则，即学习的策略；
实现求解最优模型的算法，即学习的算法；
通过学习方法选择最优模型；
利用学习的最优模型对新数据进行预测或分析.

用途: 分类、标注与回归问题

研究:

统计学习方法（statistical learning method)
统计学习理论（statistical learning theory)
统计学习应用（application of statistical learning)

领域:

人工智能、模式识别、数据挖掘、自然语言处理、语音识别、围像识别、信息检索和生物信息

重要性:

处理海量数据
计算机智能化
计算机科学发展

1.2 监督学习

1.2.1 基本概念

定义1：

从给定有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设空间，应用某一评价准则，从假设空间中选取一个最优的模型，使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测.

定义2:

它的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测（注意，这里的输入、输出是指某个系统的输入与输出，与学习的输入与输出不同)

三大空间：

输入空间（input space): 输入所有可能取值的集合
输出空间（output space): 输出所有可能取值的集合
特征空间（feature space): 每个具体的输入是一个实例（instance),通常由特征向量（feature vector) 表示. 这时，所有特征向量存在的空间称为特征空间

注意：有时候认为输入空间与特征空间一样，有时候认为输入空间需要映射到特征空间

输入、输出变量：大写字母表示，X，Y

输入、输出变量取值：小写字母，x,y

特征向量表示：下标表示第几个输入变量，上标表示第几维向量

监督学习从训练数据(training data)集合中学习模型，对测试数据(test data)进行预测。

训练数据表示：由输入输出对构成（样本或样本点）

测试数据表示：也由输入输出对构成

三大问题：

回归问题：输入变量与输出变量均为连续变量的预测问题
分类问题：输出变量为有限个离散变量的预测问题
标注问题：输入变量与输出变量均为变量序列的预测问题

基本假设：分布密度函数，即假设输入与输出的随机变量X和Y遵循联合概率分布P(X，Y).表示分布函数，或分布密度函数

模型：输入到输出的映射

概率模型：P(Y|X)
非概率模型：决策函数（decision ftmction) r = f(X ),对具体数据为P(y/x)或y=f(x)

假设空间（hypothesis space)：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间

1.2.2 问题的形式化

监督学习: 训练集训练模型，对测试样本进行预测，由于训练集由人给出，所以称为监督学习。

过程：学习、预测

图解：

ml_overview_003

形式化定义：

ml_overview_004

ml_overview_005

1.3 统计学习三要素

1.3.1 模型

用途：通过学习得到，用于预测测试数据的输出

模型的假设空间（hypothesis space): 包含所有可能的条件概率分布或决策函数。一般无穷多个

定义：

决策函数（非概率模型）：

ml_overview_006

条件概率（概率模型）：

ml_overview_007

1.3.2 策略

用途：决策模型是否好，主要求经验风险函数或结构风险函数的最优化问题

两大函数：

损失函数（loss function）：度量模型一次预测的好坏，值越小越好
风险函数（cost function）：度量平均意义下模型预测的好坏

损失函数种类：

ml_overview_008

风险函数(riskfimction)或期望损失（expected loss)：即损失函数的期望

病态问题（(ill-formed problem）：P不知道，无法计算R

经验风险（empirical risk) 或经验损失(empirical loss ) ：由于期望损失无法计算，所以一般用经验损失，其实就是训练样本的平均损失，根据大数定理，N趋于无穷，平均损失趋于期望损失

ml_overview_010

经验风险最小化（empirical risk minimization，EMP）：但是样本容量很小时效果不好,存在过度拟合（over-fitting）问题，例如极大似然估计

结构风险最小化（structural risk minimization，SRM) ：防止过拟合，例如最大后验概率估计

在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是

ml_overview_013

1.3.3 算法

统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

定义:

ml_overview_014

测试误差与测试准确率

1.4.2 过拟合与模型选择

定义: 过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预

测得很差的现象.可以说模型选择旨在避免过拟合并提髙模型的预测能力

解决: 正则化与交叉验证

1.5 正则化与交叉验证

1.5.1 正则化

正则化: 结构风险最小化策略的实现

形式: 第1项是经验风险，第 2项是正则化项，

为调整两者之间关系的系数.

正则化项不同形式:

奥卡姆剃刀原理:

在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型.

1.5.2 交叉验证

数据集: 训练集(training set)、验证集(validation set)和测试集(test set).训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估

基本想法: 重复利用数据.

三类：

简单交叉验证：首先随机地将已给数据分为两部分，一部分作为训练集，另一部分作为测试集（例如，70%的数据为训练集，30%的数据为测试集) ；然后用训练集在各种条件下（例如，不同的参数个数）训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型.
S折交叉验证：应用最多的是S折交叉验证（S-fold cross validation), 方法如下：首先随机地将已给数据切分为S个互不相交的大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S种选择重复进行；最后选出S次评测中平均测试误差最小的模型.
留一交叉验证：S折交叉验证的特殊情形是S=N称为留一交叉验证（leave-one-out cross validation),往往在数据缺乏的情况下使用. 这里，N是给定数据集的容量.

1.6 泛化能力

1.6.1 泛化误差

泛化能力（generalization ability):指由该方法学习到的模型对未知数据的预测能力

评估办法：测试误差

泛化误差（generalization error)：

如果学到的模型是f,那么用这个模型对未知数据预测的误差即为~