内容纲要

欢迎转载,作者:Ling,注明出处:自然语言处理:实践教程-基于词典标准分词

分词方法很多,有基于词典分词,基于CRF分词等等。这里首先介绍最基本的基于词典的标准分词方法。

基于词典分词需要,词典文件与语言模型文件,这两个文件都用double array trie存储.

词典文件:存储了一个数组,里面有所有词,以及一个trie树,通过遍历trie树,可以找到词对应下标,然后通过词数组找到相应的词。

语言模型:文件中存储了词和词之间的频次。通过传入2个id可以找到值。

具体分词步骤如下

nlpbpr002