汉语分词算法如何实现?汉语分词算法目前有哪些?都是如何实现的?

来源:学生作业帮助网 编辑:作业帮 时间:2024/11/25 21:28:12
汉语分词算法如何实现?汉语分词算法目前有哪些?都是如何实现的?
xTn@| R١H Q*T-a64$)iK$۫B0ԡ@J9w9cOK$KS!9qQ)|a5HɼSmhIf<[郮.71Tm@afwA)삸$Ƙ/ G`T]8ei&J`0oЁ?6yw2x8&b!_M[@A! 'OG@ ʔ߈&7r@[e$ i*Xe\tPcsJK/^J?Hy*KD ,n̅a&Aԧ="b,kOBfLF2(ci˶{>\@;Pojӯ"R]]ULv`uz!LmF2#jia/%UքpO2B0NXt}=ֶS+HgEs<'gd0loӾ$ܯɆp$bMkY9C .[#!WcW@Zb۱*%,0q^KJN@

汉语分词算法如何实现?汉语分词算法目前有哪些?都是如何实现的?
汉语分词算法如何实现?
汉语分词算法目前有哪些?都是如何实现的?

汉语分词算法如何实现?汉语分词算法目前有哪些?都是如何实现的?
常用的分词算法有正向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等等.
最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止.匹配的方向是从右向左.
逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右.实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效.
双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的切分结果,从而决定正确的切分.
最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度.