Rank教程: 05-语言模型
内容纲要
欢迎转载,作者:Ling,注明出处:Rank教程: 05-语言模型
语言模型:
定义:
通过单词之间的转移概率的乘积来计算句子的概率,这是一般语言模型的概念。当通过文档出现查询单词的概率的乘积来计算文档生成查询的概率,这就是用于Rank的语言模型。
举例:
文档D包含了五个单词:
{乔布斯,出门,买了,4袋,苹果}
用户查询Query为
{苹果,乔布斯,IPad2}
则根据语言模型计算查询概率为:
因为苹果和乔布斯都出现一次,概率为1/5,而Ipad2没有出现过,所以为0
问题:语言模型存在数据稀疏问题,即如果有未出现词,会使得查询概率为0,所以需要做数据平滑,关于数据平滑方法有很多,请参考:自然语言处理:原理简明教程03-语言模型
有了数据平滑后:
对于一个查询,有了每个文档的语言模型对应的概率后,我们按照概率排序,即得到了最后Rank的结果:
留言