内容纲要

欢迎转载,作者:Ling,注明出处:Rank教程: 05-语言模型

 

语言模型

定义

通过单词之间的转移概率的乘积来计算句子的概率,这是一般语言模型的概念。当通过文档出现查询单词的概率的乘积来计算文档生成查询的概率,这就是用于Rank的语言模型。

举例

文档D包含了五个单词:

{乔布斯,出门,买了,4袋,苹果}

用户查询Query为

{苹果,乔布斯,IPad2}

则根据语言模型计算查询概率为:

RK_05_001

因为苹果和乔布斯都出现一次,概率为1/5,而Ipad2没有出现过,所以为0

问题:语言模型存在数据稀疏问题,即如果有未出现词,会使得查询概率为0,所以需要做数据平滑,关于数据平滑方法有很多,请参考:自然语言处理:原理简明教程03-语言模型

有了数据平滑后:

RK_05_002

对于一个查询,有了每个文档的语言模型对应的概率后,我们按照概率排序,即得到了最后Rank的结果:

RK_05_003