自然语言处理:原理简明教程07-命名实体识别与词性标注
欢迎转载,作者:Ling,注明出处:自然语言处理:原理简明教程07-命名实体识别与词性标注
参考书:《统计自然语言处理(第2版)》,《形式语言与自动机理论》,《统计自然语言基础》,《自然语言处理综论》 ,《概率图模型:原理与技术》,《概率论与数理统计》,《统计学方法》,《中文自动分词与标注》
自然语言处理三大问题:
- 分词
- 命名实体识别
- 词性标注
未登彔词问题(OOV,out of vocabulary):人名,地名,组织名(词典无法穷尽),新出现的词汇,术语,俗语。命名实体识别问题
之前五种分词方法OOV影响:
(1)(2)影响大,因为是基于词典的,如果词典没有这个词,将会不准确
(3)方法影响小,因为完全由CRF计算得到,例如:
(4)(5)以字为单位,影响较小
命名实体:
- 人名,地名,组织机构名(宗成庆书主要关注对象)
- 时间和数字表达(时间,日期,金额,百分比等)
- 电影名,书名,项目名,研究领域名称,电话号码,电子邮件
- MUC-6:http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html
- CoNLL:http://www.conll.org/
命名实体对分词影响:
命名实体识别:
- 原先关注的焦点是信息抽取问题(西文并无分词问题),即从非结构化文本中抽取结构化信息。例如人名、地名、组织机构名、时间和数字表达(包括时间、日期、货币量和百分数)等。后用于中文分词体系里,处理未登录词中的一大类。
- 任务是:实体边界识别和确定实体类别
- 主要关注:人名、地名、组织机构
- 方法:基于规则→基于大规模语料库
本文主要介绍:基于CRF的NER(近期热门主流方法),基于多特征识别的NER(据称有较高的识别指标,不过结果值得怀疑)
基于CRF的命名实体识别方法(宗书152-154):
- 提出:McCallum
- 步骤:
1)把NER化归为标注问题:从词性标注->命名实体标注,其中标注就是状态y,词就是x
2)特征模板:即应该把哪些词组合在一起,以标注好的词为单位,用特征模板匹配
- 总结:
1)训练阶段:确定特征模板(即取多大一个窗口或者怎么一个组合,将多个词组合在一起,用CRF进行训练),不同场景(人名,地名,组织名)所使用的特征模板不相同。对现有语料先进行分词,在分词结果基础上迚行标注(可能是手工),NER对应的标注问题是基于词(包括单字词)的,然后训练CRF模型,得到对应的权值参数值
2)识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,根据标注序列划分出命名实体。
基于多特征识别的NER(宗书154-162)
- 论文:吴友政博士论文《汉语问答系统关键技术研究》
- 思想:
1)分词得到词和词性:
2)词形和词性:
3)词形模型,词性模型,以及两者的混合模型:
- 说明:
- 其中,7-25由后面两个式子计算出
未登录词发现和收集:
- 搜索引擎
- 输入法
- 基于语料:
- 参考:刘开英112
说明:
- n元组表示多少个字构成词
- 功能字:说明其构词能力的强弱,构词越多,其构词能力越强,越小说明构词能力不强,可以剔除,这些字就是功能字。
- n元重叠:依据,比如“戈巴乔夫”,那么肯定,其中戈巴和乔夫都会出现很多次,所以在算它们的时候要去掉戈巴乔夫的词数
词性标注(Pos):
意义和困难:
- 分析主谓宾,理解句子,分析主要成分
- Part-of-speech,是重要的基础性工作,为后续的句法分析等迚一步工作提供基础。分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”
- 在很多工程化实现里,词性标注和分词同时完成
- 汉语不像英语,可以从词的形态变化(过去式,过去分词,现在分词等等)判断
- 常用词兼有多词性分类比例高
- 没有被广泛认受的词性划分标准,同行互相各执己见,大量浪费在重复劳动
词性标注方法:
基于规则(比较复杂,不太实用,了解即可):
- 宗书49
- 刘开英184
- Brill提出通过机器学习方法从大规模语料自动提取转换规则的思路
基于统计的词性标注
- 宗书166
- 有标注语料
1)先标注好语料
2)统计(π,A,B)
3)根据HMM解决第二类预测问题
- 没有已标注语料
HMM第三类问题,同时要用词典约束一下,该词要有对应的词性
- 改进:
1)Kupiec基于等价类的改进
2)王挺等的改进
词性标注一致性检查(宗书174):
简单步骤:
1)建立一个词的词性矩阵
2)乘以位置属性
3)对矩阵进行聚类,奇异点就是错误的词性标注
说明:
工具:
- Stanford NER:http://nlp.stanford.edu/software/CRF-NER.shtml 基于语料,英文的
- 赵海BaseNER和BasePos:http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.html#Software
留言