内容纲要

欢迎转载,作者:Ling,注明出处:自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析

参考书:《统计自然语言处理(第2版)》,《形式语言与自动机理论》,《统计自然语言基础》,《自然语言处理综论》 ,《概率图模型:原理与技术》,《概率论与数理统计》,《统计学方法》,《中文自动分词与标注》

句法分析概述

nlp09001

句法结构分析:对输入的单词序列(一般为句子),判断其构成是否合乎给定的语法,并分析出合乎语法的句子的句法结构。

句法分析的任务

  • 判断输入的字符串是否属于某种语言
  • 消除输入句子中词法和结构等方面的歧义
  • 分析输入句子的内部结构

构造句法分析器

  • 语法的形式化表示和词条信息描述问题
  • 分析算法的设计

句法结构分析方法

  • 基于规则的句法结构分析
  • 基于统计的语法结构分析

PCFG:基于概率的上下文无关文法

论文:《Probabilistic Context-Free Grammars (PCFGs)》

思想:(结合论文看,该论文是一个lecture note,很棒)

  • CFG:提出了四元文法,最左文法
  • 基于CFG的句法分析模型满足三个假设条件:位置不变性,上下文无关性,祖先无关性
  • 符合乔姆斯基范式,左边都为单个非终结符,右边要么都是非终结符,要么只有终结符,
  • 如:

nlp09002

  • 但是不同的语法树解析相同的句子,可能有不同意思。
  • 有了语法树可以定义概率
  • TG(S)表示具体解析树,当大于一表示有歧义,所以要用概率树选最大的。
  • 三大问题:1)已知产式概率,求语法树概率。2)求所有语法树中最大概率。3)不知道产式概率,求参数。这三个问题刚好对应HMM的三大问题。
  • 如果有corpus可以统计处概率则,方法是文法每个产式可以根据corpus统计出概率,然后生成树的过程不断把概率相乘,最后得到最终的树的概率。难点在于如何遍历所有产式,得到所有树的概率。用dp解答,写出递推式子,每个树是在子树概率基础上得到的。
  • 如果没有corpus,则用EM求解:

nlp09003

浅层句法分析

  • 完全句法分析是困难的任务,目前还没令人满意的解决方法
  • 树库成本昂贵
  • 浅层句法分析:完全句法分析的简化任务版,主要包括两个子任务,语块识别与分析,语块之间依附关系分析
  • 语块(chunk):句子中的结构独立,相对较简单的部分。例如,名词短语,动词短语

nlp09004

BaseNP

  • 与命名实体区别:命名实体是词典中查不出的,BaseNP可以是查得出的

nlp09005

nlp09006

nlp09007

识别方法

  • 基于CRF识别BaseNP
  • 基于SVM识别BaseNP
  • 混合方法

基于CRF识别BaseNP

参考论文:转化为标注问题《Shallow Parsing with Conditional Random Fields》

说明:就是写出标记之间的状态转移,然后根据CRF写出模型公式,求解参数

基于SVM识别BaseNP

参考论文

《Use of  Support Vector Learning for Chunk Identification》最后用的是线性SVM

《Fast Methods for Kernel-based Text Analysis》上文改进,用了核函数

思想

nlp09008

nlp09009

说明

  • Col0为词序列,col1为词性序列,tag为标注序列,
  • 以deficit为例,取前后词,词性,和tag,所有词和词性和tag都用word vector(0-1)表示,然后tag是类别,进行分类,训练出分类模型。注意特征集包含了前两个tag
  • 为了保证空间要求,对数据进行压缩,比如(3,101,1791)表示三个词的vector

混合方法

参考论文:《A Hybrid Approach to Chinese Base Noun Phrase Chunking》

思路:结合SVM+CRF多种因素的结果

结果分析

nlp09010

nlp09011

依存语法(了解,不细讲):

  • 依存语法:用词不词之间的依存关系来描述语言结构的框架
  • L.Tesniere理论:一切结构局句法现象可概括为关联,组合,转位三大核心。句法关联建立起词不词之间的从属关系,这种从属关系是由支配词和从属词联结而成。价的概念:一个动词所能支配的行动元的个数。

nlp09012

参考论文

《Non-projective Dependency Parsing using Spanning Tree Algorithms》

《Layer-Based Dependency Parsing》

语义分析(不细讲,了解):一个词多种意思,通过 分析技术,确定它在上下文中的真实意思

篇章分析:自动文摘:摘录,指代消解,衔接问题

指代消解

论文

《指代消解综述》:对指代消解进行了综述,其中有中文部分

《Coreference Resolution Current Trends and Future Directions》:综述文章

《First-Order Probabilistic Models for Coreference Resolution》:从上面综述文章中来的一篇

最后一篇思路

nlp09013

nlp09014

说明:图一边表示之间关系的概率,公式为计算概率的公式

步骤

1)corpus聚类,找到(bush, he)这样的对

2)根据特征模板,选取特征,就是最后语料每个是啥样

3)利用最大熵求解“人k”

4)得到P

5)得到图

6)分区和聚类问题

7)改进:First-Order Logic Model

自动文摘

  • Luhn在1958年的开创性工作
  • 自劢文摘技术分类:单文档摘要,多文档摘要等

方法

  • VSM方法
  • 基于隐语义的方法
  • 基于HMM的方法

VSM方法

论文:《基于潜在语义分析的单文本自动摘要方法研究》里面提到了

nlp09015

基于潜在语义的方法

论文:《基于潜在语义索引的文本摘要方法》,《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》

思路

nlp09016

基于HMM的方法

参考论文:《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》

思路

nlp09017

多文档摘要:不成熟,不细讲

问题

  • 怎样找到感兴趣的多篇文档?
  • 怎样从多篇文档里联合抽取?
  • 抽取出来的句子按怎样的顺序排列?
  • 抽取出来的句子怎样做到上下文“融合”?

参考论文

《Centroid-based summarization of multiple documents》

《Sentence Fusion for Multidocument News Summarization》