内容纲要

欢迎转载,作者:Ling,注明出处:自然语言处理:原理简明教程07-命名实体识别与词性标注

参考书:《统计自然语言处理(第2版)》,《形式语言与自动机理论》,《统计自然语言基础》,《自然语言处理综论》 ,《概率图模型:原理与技术》,《概率论与数理统计》,《统计学方法》,《中文自动分词与标注》

自然语言处理三大问题

  • 分词
  • 命名实体识别
  • 词性标注

未登彔词问题(OOV,out of vocabulary):人名,地名,组织名(词典无法穷尽),新出现的词汇,术语,俗语。命名实体识别问题

之前五种分词方法OOV影响

(1)(2)影响大,因为是基于词典的,如果词典没有这个词,将会不准确

(3)方法影响小,因为完全由CRF计算得到,例如:

ml07001

(4)(5)以字为单位,影响较小

命名实体

  • 人名,地名,组织机构名(宗成庆书主要关注对象)
  • 时间和数字表达(时间,日期,金额,百分比等)
  • 电影名,书名,项目名,研究领域名称,电话号码,电子邮件
  • MUC-6:http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html
  • CoNLL:http://www.conll.org/

命名实体对分词影响:

ml07002

命名实体识别

  • 原先关注的焦点是信息抽取问题(西文并无分词问题),即从非结构化文本中抽取结构化信息。例如人名、地名、组织机构名、时间和数字表达(包括时间、日期、货币量和百分数)等。后用于中文分词体系里,处理未登录词中的一大类。
  • 任务是:实体边界识别和确定实体类别
  • 主要关注:人名、地名、组织机构
  • 方法:基于规则→基于大规模语料库

ml07003

本文主要介绍:基于CRF的NER(近期热门主流方法),基于多特征识别的NER(据称有较高的识别指标,不过结果值得怀疑)

基于CRF的命名实体识别方法(宗书152-154):

  • 提出:McCallum
  • 步骤:

1)把NER化归为标注问题:从词性标注->命名实体标注,其中标注就是状态y,词就是x

ml07004

2)特征模板:即应该把哪些词组合在一起,以标注好的词为单位,用特征模板匹配

ml07005

  • 总结:

1)训练阶段:确定特征模板(即取多大一个窗口或者怎么一个组合,将多个词组合在一起,用CRF进行训练),不同场景(人名,地名,组织名)所使用的特征模板不相同。对现有语料先进行分词,在分词结果基础上迚行标注(可能是手工),NER对应的标注问题是基于词(包括单字词)的,然后训练CRF模型,得到对应的权值参数值

2)识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,根据标注序列划分出命名实体。

基于多特征识别的NER(宗书154-162)

  • 论文:吴友政博士论文《汉语问答系统关键技术研究》
  • 思想:

1)分词得到词和词性:

ml07006

2)词形和词性:

ml07007

3)词形模型,词性模型,以及两者的混合模型:

ml07008

  • 说明:

ml07009

ml07010

ml07011

  • 其中,7-25由后面两个式子计算出

未登录词发现和收集

  • 搜索引擎
  • 输入法
  • 基于语料:
  • 参考:刘开英112

ml07012

ml07013

说明

  • n元组表示多少个字构成词
  • 功能字:说明其构词能力的强弱,构词越多,其构词能力越强,越小说明构词能力不强,可以剔除,这些字就是功能字。

ml07014

  • n元重叠:依据,比如“戈巴乔夫”,那么肯定,其中戈巴和乔夫都会出现很多次,所以在算它们的时候要去掉戈巴乔夫的词数

ml07015

词性标注(Pos):

ml07016

ml07017

意义和困难

  • 分析主谓宾,理解句子,分析主要成分
  • Part-of-speech,是重要的基础性工作,为后续的句法分析等迚一步工作提供基础。分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”
  • 在很多工程化实现里,词性标注和分词同时完成
  • 汉语不像英语,可以从词的形态变化(过去式,过去分词,现在分词等等)判断
  • 常用词兼有多词性分类比例高
  • 没有被广泛认受的词性划分标准,同行互相各执己见,大量浪费在重复劳动

词性标注方法

基于规则(比较复杂,不太实用,了解即可):

  • 宗书49
  • 刘开英184

ml07018

ml07019

ml07020

  • Brill提出通过机器学习方法从大规模语料自动提取转换规则的思路

ml07021

基于统计的词性标注

  • 宗书166
  • 有标注语料

1)先标注好语料

2)统计(π,A,B)

ml07022

3)根据HMM解决第二类预测问题

  • 没有已标注语料

HMM第三类问题,同时要用词典约束一下,该词要有对应的词性

ml07023

  • 改进:

1)Kupiec基于等价类的改进

2)王挺等的改进

 

词性标注一致性检查(宗书174):

简单步骤

1)建立一个词的词性矩阵

2)乘以位置属性

3)对矩阵进行聚类,奇异点就是错误的词性标注

ml07024

ml07025

说明:

ml07026

工具

  • Stanford NER:http://nlp.stanford.edu/software/CRF-NER.shtml 基于语料,英文的
  • 赵海BaseNER和BasePos:http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.html#Software