自然语言处理：原理简明教程07-命名实体识别与词性标注

内容纲要

欢迎转载，作者：Ling，注明出处：自然语言处理：原理简明教程07-命名实体识别与词性标注

参考书：《统计自然语言处理（第2版）》，《形式语言与自动机理论》，《统计自然语言基础》，《自然语言处理综论》，《概率图模型：原理与技术》，《概率论与数理统计》,《统计学方法》，《中文自动分词与标注》

自然语言处理三大问题：

分词
命名实体识别
词性标注

未登彔词问题（OOV，out of vocabulary）：人名，地名，组织名（词典无法穷尽），新出现的词汇，术语，俗语。命名实体识别问题

之前五种分词方法OOV影响：

（1）（2）影响大，因为是基于词典的，如果词典没有这个词，将会不准确

（3）方法影响小，因为完全由CRF计算得到，例如：

ml07001

（4）（5）以字为单位，影响较小

命名实体：

人名，地名，组织机构名（宗成庆书主要关注对象）
时间和数字表达（时间，日期，金额，百分比等）
电影名，书名，项目名，研究领域名称，电话号码，电子邮件
MUC-6：http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html
CoNLL：http://www.conll.org/

命名实体对分词影响：

ml07002

命名实体识别：

原先关注的焦点是信息抽取问题（西文并无分词问题），即从非结构化文本中抽取结构化信息。例如人名、地名、组织机构名、时间和数字表达（包括时间、日期、货币量和百分数）等。后用于中文分词体系里，处理未登录词中的一大类。
任务是：实体边界识别和确定实体类别
主要关注：人名、地名、组织机构
方法：基于规则→基于大规模语料库

ml07003

本文主要介绍：基于CRF的NER（近期热门主流方法），基于多特征识别的NER（据称有较高的识别指标，不过结果值得怀疑）

基于CRF的命名实体识别方法（宗书152-154）：

提出：McCallum
步骤：

1）把NER化归为标注问题：从词性标注->命名实体标注，其中标注就是状态y，词就是x

ml07004

2）特征模板：即应该把哪些词组合在一起，以标注好的词为单位，用特征模板匹配

ml07005

总结：

1）训练阶段：确定特征模板（即取多大一个窗口或者怎么一个组合，将多个词组合在一起，用CRF进行训练），不同场景（人名，地名，组织名）所使用的特征模板不相同。对现有语料先进行分词，在分词结果基础上迚行标注（可能是手工），NER对应的标注问题是基于词（包括单字词）的，然后训练CRF模型，得到对应的权值参数值

2）识别过程：将待识别文档分词，然后送入CRF模型进行识别计算（维特比算法），得到标注序列，根据标注序列划分出命名实体。

基于多特征识别的NER（宗书154-162）