自然语言处理：实践教程-基于词典标准分词 – Ling之博客

93

文章
73057

评论
1

邻居

工作稳定了，准备重新拾起博客！
欢迎来到Ling之博客，分享技术，享受生活！

自然语言处理：实践教程-基于词典标准分词

内容纲要

欢迎转载，作者：Ling，注明出处：自然语言处理：实践教程-基于词典标准分词

分词方法很多，有基于词典分词，基于CRF分词等等。这里首先介绍最基本的基于词典的标准分词方法。

基于词典分词需要，词典文件与语言模型文件，这两个文件都用double array trie存储.

词典文件：存储了一个数组，里面有所有词，以及一个trie树，通过遍历trie树，可以找到词对应下标，然后通过词数组找到相应的词。

语言模型：文件中存储了词和词之间的频次。通过传入2个id可以找到值。

具体分词步骤如下：

nlpbpr002

转载原创文章请注明，转载自： Ling之博客 » 自然语言处理：实践教程-基于词典标准分词

留言

发表评论

分享到QQ空间分享到新浪微博分享到微信分享到豆瓣网分享到百度贴吧分享到QQ好友分享到一键分享

自定义皮肤单栏布局玻璃菜单主体内容背景

默认