自然语言处理:实践教程-基于词典标准分词
内容纲要
欢迎转载,作者:Ling,注明出处:自然语言处理:实践教程-基于词典标准分词
分词方法很多,有基于词典分词,基于CRF分词等等。这里首先介绍最基本的基于词典的标准分词方法。
基于词典分词需要,词典文件与语言模型文件,这两个文件都用double array trie存储.
词典文件:存储了一个数组,里面有所有词,以及一个trie树,通过遍历trie树,可以找到词对应下标,然后通过词数组找到相应的词。
语言模型:文件中存储了词和词之间的频次。通过传入2个id可以找到值。
具体分词步骤如下:
留言