内容纲要

欢迎转载,作者:Ling,注明出处:自然语言处理:原理简明教程04-马尔可夫模型与EM模型
参考书:《统计自然语言处理(第2版)》,《形式语言与自动机理论》,《统计自然语言基础》,《自然语言处理综论》 ,《概率图模型:原理与技术》,《概率论与数理统计》

概率图模型(第4页,概率图模型)

ml03001

贝叶斯网络:有向图,通过贝叶斯公式计算所有的联合概率,同时由于概率图的存在,不必存储所有联合概率

  • 推导:

ml03002

  • 优势:减少条件概率的数目,仅要存图中有的条件概率,箭头就是前提条件

马尔可夫网:无向图,通过分成团,得到因子,计算联合概率

产生式与判别式

ml03003

  • 上图是产生式,即通过概率的连乘推导出来最后的概率
  • 下图是判别式,即直接得到最后的概率公式,直接算结果
  • 论文:

ml03004

ml03005

ml03006

  • 结论:规模大时判别式好,小时产生式好

产生式 VS 判别式

  • 分类器:给出输入x,分类变量y,求p(y|x)
  • 产生式模型的思想是先估算联合概率密度p(x,y),再通过贝叶斯公式求出p(y|x),判别式模型则直接估算p(y|x)
  • 产生式模型典型代表:朴素贝叶斯,判别式模型典型代表:logistics回归
  • 一般认为判别式模型更受喜爱,“人们应该更直接去解决问题,永进丌要把求解更复杂的问题作为中间阶段”(Vapnik),吴恩达的论文作了较全面的分析,产生式模型(朴素贝叶斯)在少量样本的情况下,可以取得更好的精确率,判别式模型(logistics回归)在样本增加的情况下,逐渐逼近前者的精确率
  • 例子:

ml03007

马尔科夫

  • 彼得堡数学学派:切比雪夫,马尔科夫和李雅普诺夫
  • 学派主要贡献:复兴概率论,把概率论从濒临衰亡的境地挽救出来,恢复其作为一门数学学科的地位,幵把它推迚到现代化的门槛

ml03008

随机过程(浙大书:300):简单说就是每个时间t都有不同的分布,所以我们要研究子问题,平稳随机过程,随时间不变,马尔科夫随机过程:现在之和之前有关

ml03009

马尔可夫随机过程:当前只和之前相关

ml03010

马尔夫链:时间和状态都是离散的马尔科夫过程称为马尔可夫链

ml03011

转移概率:转移概率,转移概率矩阵,齐次马氏链,一步转移概率矩阵

齐次:每次走一样的步数,如:1步

ml03012

随机游动:

ml03013

求多步转移概率:即一步的转移矩阵的n次方

ml03014

n次方好求:

ml03015

遍历性:即无限次转移后,最终会稳定到一个状态

ml03016

ml03017

应用

  • Page Rank算法

       网页和网页之间的链接建立转移概率:

ml03018
        但是,存在0值,不可逆
        修正:

ml03019

        S表示原始G,U为全1矩阵,α表示去别的网页的概率,所以乘在S上,1-α表示停留在本页的概率

        利用修正后转移矩阵求下一个网页概率:

ml03020

隐马尔可夫

ml03021

ml03022

形式化表示

  • 定义:

ml03023

  • 组成:

ml03024

ml03025

  • 实例:http://www.cnblogs.com/skyme/p/4651331.html

HMM中三个基本问题(p111)

  • 估计问题
  • 序列问题
  • 训练问题戒参数估计问题

第一个基本问题:解码问题,在所有状态组合中找,找到能够得到该观察序列的,统计总和

ml03026

  • 直接推导斱法(计算量出现“指数爆炸”)
  • 基于动态规划思想的格架算法:写出递推公式

ml03027

  • 前向算法:

ml03028

        其中αt(i)表示到si状态的概率

        推导:

ml03029

  • 后向算法:

ml03030

第二个基本问题:确定状态序列

ml03031

  • at(i)表示t时到i点前向所有概率,βt(i)也表示t时到i点后向所有概率,下面表示t时到所有状态的概率和

ml03032

  • 归纳公式表示:t时在sj状态的最大概率等于,t-1时刻i状态最大概率,转移到j状态的所有I取值,中最大的,再乘上发射概率
  • 注意还需要一个存路径的。

第三个基本问题:HMM的参数估计问题

ml03033

EM(期望+最大似然):

期望最大化(Expectation Maximization) 算法最初是由Ceppellini

1950 年在讨论基因频率的估计的时候提出的。后来又被Hartley

Baum 等人发展的更加广泛。目前引用的较多的是1977 Dempster

等人的工作。它主要用于从不完整的数据中计算最大似然估计。后来经过

其他学者的发展,这个算法也被用于聚类等应用

要点

  • 在数据信息完全时,θ可以通过两种方式求,一种时统计出现次数的方式(称1方式),一种时极大似然的方法,让样本概率最大(2方式)
  • 当数据信息缺失的情况下,先随机取θ值,然后根据θ值补充完全信息,然后就可以用2方式求解θ,然后用新θ替代老θ,如此反复。

实例:参考《EM算法详细例子及推导》

ml03034

ml03035

ml03036

  • 总结:注意投掷哪枚硬币是不知道的
  • E步:

          (1) 随机给θ值

           (2)在给定θ值的情况下,目前A,B状态序列位置,可以通过θ推算。

  • M步:

           (3)根据硬币和最后结果,假设θ未知,得到一个概率公式,用最大似然公式计算θ,得到后重新计算(2),直到收敛

数学意义:

ml03037

ml03038

ml03039

  • 几点说明:

        (1)式子(5)表示要让最后所有概率乘积最大,用了ln后就是相加

        (2)式子(6)表示每个X的取值,需要把每个Z取值对应的x都加起来

        (3)引入一个aj (7)

        (4)式子(8)是当图形为下凸时候的jesson不等式

  • 如图:

ml03040

        (5)式子(9)相反,因为ln是上凸,所以刚好相反

        (6)式子(10)目的是说明,只有这个为常数,才会有等号成立

        (7)式子(11)的证明如下

em

         (8)提出aj目的就是,通过θ可以求aj,算出aj后,可以直到zj,有了zj,假设aj中参数未知,即可有l(θ),用极大似然函数求即可

ml03042

对于期望最大化算法收敛性讨论

ml03043

  • 说明:

        (1)只要每次似然函数值都在增大即可保证收敛,因为单调的凸函数,肯定有极值

        (2)第一个不等号,由E步决定,每次都要让那个条件概率公式更大,第二个不等号,由M步决定,每次最大似然要变大

  • 宗书的描述一般,所以这里只是附上,不解释:

ml03044

ml03045

ml03046

应用

语音识别

  • 将语音分成因子,然后单词是隐藏状态,发音序列是观测序列
  • 注意这里隐藏状态其实跨多个马尔科夫模型,每个单词是一个
  • 汉语容易,英语难
  • 具体不讲解,以后专门讲

ml03047

ml03048

ml03049

ml03050

ml03051

ml03052

分词

层次化隐马尔可夫模型(HHMM):用得不多,不细讲

  • HHMM的提出:在自然语言处理等应用中,由于处理序列具有递归特性,尤其当序列长度较大时,HMM的复杂度会急剧增大,因此,ShaiFine等人提出了HHMM。
  • HHMM的结构机制:HHMM是由多层随机过程构成。在HHMM中每个状态本身就是一个独立的HHMM,因此一个HHMM的状态产生一个观察序列。HHMM通过状态转移递归地产生观察序列,一个状态可以激活下层状态中的某一个状态,如此循环,直到到达某个特定的状态这一递归结束,该特定状态称为生产状态。丌直接产生可观察符号的隐匿状态称作内部状态。丌同层次之间的转移叫做垂直转移,同一层次之间的转移叫做水平转移。
  • HHMM的形式化描述(p120)
  • HHMM需解决的三个基本问题(p120)
  • 适用于长文本分类

马尔科夫网络:之后会被条件随机场借鉴

  • 实例:(概率图模型书82页)

ml03053

特点

  • 无向图:不是有向图,无法用贝叶斯网络
  • 联合概率密度
  • 定义因子
  • 计算一切

ml03054

ml03055

ml03056

ml03057

ml03058

  • 说明:

        (1)将图分解为子团,所谓团就是一个图形中所有点都是互连的

         如:

ml03059

        (2)每个子团为一个因子

        (3)联合概率等于因子的乘积

        (4)有了联合概率可以计算一切

        (5)要正规化,可参考宗书121页

ml03060

ml03061

ml03062