内容纲要

欢迎转载,作者:Ling,注明出处:机器学习:原理简明教程01-统计学习方法概论

参考《统计学习方法》

 

1.1 统计学习

定义:

统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 统计学习也称为统计机器学习(statistical machine learning),机器学习一般指统计机器学习。

对象:

数据,即计算机及网络上的各种数字、文字、图像、 视频、音频数据以及它们的组合

前提: 有规律

目标: 预测与分析

方法:

  • 监督学习(supervised learning)
  • 非监督学习(unsupervised learning)
  • 半监督学习(semi-supervisedlearning)
  • 强化学习(reinforcementlearning)

三要素: 模型(model)、策略(strategy)和 算法(algorithm)

步骤:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3.  确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析.

用途: 分类、标注与回归问题

研究:

  • 统计学习方法(statistical learning method)
  • 统计学习理论(statistical learning theory)
  • 统计学习应用(application of statistical learning)

领域:

人工智能、模式识别、数据挖掘、自然语言处理、语音识别、围像识别、信息检索和生物信息

重要性:

  • 处理海量数据
  • 计算机智能化
  • 计算机科学发展

 

1.2 监督学习

1.2.1 基本概念

定义1

从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测.

定义2:

它的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)

三大空间

  • 输入空间(input space): 输入所有可能取值的集合
  • 输出空间(output space): 输出所有可能取值的集合
  • 特征空间(feature space): 每个具体的输入是一个实例(instance),通常由特征向量(feature vector) 表示. 这时,所有特征向量存在的空间称为特征空间

注意:有时候认为输入空间与特征空间一样,有时候认为输入空间需要映射到特征空间

输入、输出变量:大写字母表示,X,Y

输入、输出变量取值:小写字母,x,y

特征向量表示:下标表示第几个输入变量,上标表示第几维向量

ml_overview_001

监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。

训练数据表示:由输入输出对构成(样本或样本点)

ml_overview_002

测试数据表示:也由输入输出对构成

三大问题

  • 回归问题:输入变量与输出变量均为连续变量的预测问题
  • 分类问题:输出变量为有限个离散变量的预测问题
  • 标注问题:输入变量与输出变量均为变量序列的预测问题

基本假设:分布密度函数,即假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y).表示分布函数,或分布密度函数

模型:输入到输出的映射

  • 概率模型:P(Y|X)
  • 非概率模型:决策函数(decision ftmction)  r  = f(X ),对具体数据为P(y/x)或y=f(x)

假设空间(hypothesis space):模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间

 

1.2.2 问题的形式化

监督学习: 训练集训练模型,对测试样本进行预测,由于训练集由人给出,所以称为监督学习。

过程:学习、预测

图解

ml_overview_003

形式化定义

ml_overview_004

ml_overview_005

 

1.3 统计学习三要素

1.3.1 模型

用途:通过学习得到,用于预测测试数据的输出

模型的假设空间(hypothesis space): 包含所有可能的条件概率分布或决策函数。一般无穷多个

定义

决策函数(非概率模型):

ml_overview_006

条件概率(概率模型):

ml_overview_007

1.3.2 策略

用途:决策模型是否好,主要求经验风险函数或结构风险函数的最优化问题

两大函数

  • 损失函数(loss function):度量模型一次预测的好坏,值越小越好
  • 风险函数(cost function):度量平均意义下模型预测的好坏

损失函数种类

ml_overview_008

风险函数(riskfimction)或期望损失(expected loss):即损失函数的期望

ml_overview_009

病态问题((ill-formed problem):P不知道,无法计算R

经验风险(empirical risk) 或经验损失(empirical loss ) :由于期望损失无法计算,所以一般用经验损失,其实就是训练样本的平均损失,根据大数定理,N趋于无穷,平均损失趋于期望损失

ml_overview_010

经验风险最小化(empirical risk minimization,EMP):但是样本容量很小时效果不好,存在过度拟合(over-fitting)问题,例如极大似然估计

ml_overview_011

结构风险最小化(structural risk minimization,SRM) : 防止过拟合,例如最大后验概率估计

在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是

ml_overview_012

ml_overview_013

1.3.3 算法

统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法

 

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

定义:

ml_overview_014

测试误差与测试准确率

ml_overview_015

1.4.2 过拟合与模型选择

定义: 过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预

测得很差的现象.可以说模型选择旨在避免过拟合并提髙模型的预测能力

解决: 正则化与交叉验证

 

1.5 正则化与交叉验证

1.5.1 正则化

正则化: 结构风险最小化策略的实现

形式: 第1项是经验风险,第 2项是正则化项,

ml_overview_016

为调整两者之间关系的系数.

ml_overview_017

正则化项不同形式:

ml_overview_018

ml_overview_019

ml_overview_020

ml_overview_021

奥卡姆剃刀原理:

在所有可能选择的模型中,能够很好地解释已知数据并且十 分简单才是最好的模型,也就是应该选择的模型.

 

1.5.2  交叉验证

数据集: 训练集(training set)、验证集(validation set)和测试集(test set).训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估

基本想法: 重复利用数据.

三类

  • 简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(例如,70%的数据为训练集,30%的数据为测试集) ;然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型.
  • S折交叉验证:应用最多的是S折交叉验证(S-fold cross validation), 方法如下:首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型.
  • 留一交叉验证:S折交叉验证的特殊情形是S=N称为留一交叉验证(leave-one-out cross validation),往往在数据缺乏的情况下使用. 这里,N是给定数据集的容量.

 

1.6 泛化能力

1.6.1 泛化误差

泛化能力(generalization  ability):指由该方法学习到的模型对未知数据的预测能力

评估办法:测试误差

泛化误差(generalization error):

如果学到的模型是f,那么用这个模型对未知数据预测的误差即为~

ml_overview_022

1.6.2 泛化误差上界

泛化误差上界(generalization error bound) :学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的

性质

它是样本容量的函数,当样本容量增加时,泛化上界趋于0; 它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

定理

ml_overview_023

 

定理证明

ml_overview_024

ml_overview_025

ml_overview_026

 

1.7 生成模型与判别模型

两种函数

  • 决策函数:

ml_overview_027

  • 条件概率:

ml_overview_028

监督学习方法两类

第一类

生成方法(generative approach) :

ml_overview_029

生成模型(generative model) :模型表示了给定输入X产生输出Y的生成关系。典型:朴素贝叶斯法和隐马尔可夫模型

生成方法的特点

  • 生成方法可以还原出联合概率分布p (x ,y) , 而判别方法则不能;
  • 生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
  • 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用.

 

第二类

判别方法(discriminative approach):判别方法由数据直接学习决策函数f( X ) 或者条件概率分布P(Y|X) 作为预测的模型,即判别模型.判别方法关心的是对给定的输入X应该预测什么样的输出Y

判别模型(discriminativemodel): k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等

判别方法的特点

  • 判别方法直接学习的是条件概率P(Y|X)或决策函数f(X) , 直接面对预测,往往学习的准确率更高;
  • 由于直接学习P(Y| X)或f(X), 可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题.

 

1.8 分类问题

概念

分类器(classifier):分类模型或分类决策函数

分类(classification):对输入进行预测

图示

ml_overview_030

性能指标

准确率(accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

精确度、召回率和F值:精确率和召回率都高时,F1值也会高

ml_overview_031

可用于分类的方法:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等.

 

1.9 标注问题

标注问题: 分类问题的推广,对观测序列给出标记序列

  • 输入:观测序列
  • 输出:标记序列或状态序列

两过程:学习和标注

ml_overview_032

ml_overview_033

评价标准: 准确率,精确率,召回率和F值

统计学方法:隐马尔可夫模型、条件随机场

应用:信息抽取、自然语言处理

举例:词性标注

ml_overview_034

 

1.10 回归问题

目的:预测输入变量(自变量)和输出变量(因变量)之间的关系

回归模型:表示从输入变量到输出变量之间映射的函数

回归问题的学习:等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据

详解

ml_overview_035

分类

  • 输入变量的个数:一元回归和多元回归
  • 模型的类型:线性回归和非线性回归

损失函数:平方损失函数,用最小二乘法(least squares)求解

典型问题:市场趋势预测、产品质量管理、客户满意度调查、投资风险分析

举例:股价预测,输入是之前的信息,输出是股价,预测出变化曲线