python正向最大匹配分词和逆向最大匹配分词的实例

正向最大匹配

# -*- coding:utf-8 -*-
 
CODEC=\'utf-8\'
 
def u(s, encoding):
  \'converted other encoding to unicode encoding\'
  if isinstance(s, unicode):
    return s
  else:
    return unicode(s, encoding)
 
def fwd_mm_seg(wordDict, maxLen, str):
  \'forward max match segment\'
  wordList = []
  segStr = str
  segStrLen = len(segStr)
  for word in wordDict:
    print \'word: \', word
  print \"\\n\"
  while segStrLen > 0:
    if segStrLen > maxLen:
      wordLen = maxLen
    else:
      wordLen = segStrLen
    subStr = segStr[0:wordLen]
    print \"subStr: \", subStr
    while wordLen > 1:
      if subStr in wordDict:
        print \"subStr1: %r\" % subStr
        break
      else:
        print \"subStr2: %r\" % subStr
        wordLen = wordLen - 1
        subStr = subStr[0:wordLen]
#      print \"subStr3: \", subStr
    wordList.append(subStr)
    segStr = segStr[wordLen:]
    segStrLen = segStrLen - wordLen
  for wordstr in wordList:
    print \"wordstr: \", wordstr
  return wordList
    
      
def main():
  fp_dict = open(\'words.dic\')
  wordDict = {}
  for eachWord in fp_dict:
    wordDict[u(eachWord.strip(), \'utf-8\')] = 1
  segStr = u\'你好世界hello world\'
  print segStr
  wordList = fwd_mm_seg(wordDict, 10, segStr)
  print \"==\".join(wordList)
  
 
if __name__ == \'__main__\':
  main()

逆向最大匹配

# -*- coding:utf-8 -*-
 
 
def u(s, encoding):
  \'converted other encoding to unicode encoding\'
  if isinstance(s, unicode):
    return s
  else:
    return unicode(s, encoding)
 
CODEC=\'utf-8\'
 
def bwd_mm_seg(wordDict, maxLen, str):
  \'forward max match segment\'
  wordList = []
  segStr = str
  segStrLen = len(segStr)
  for word in wordDict:
    print \'word: \', word
  print \"\\n\"
  while segStrLen > 0:
    if segStrLen > maxLen:
      wordLen = maxLen
    else:
      wordLen = segStrLen
    subStr = segStr[-wordLen:None]
    print \"subStr: \", subStr
    while wordLen > 1:
      if subStr in wordDict:
        print \"subStr1: %r\" % subStr
        break
      else:
        print \"subStr2: %r\" % subStr
        wordLen = wordLen - 1
        subStr = subStr[-wordLen:None]
#      print \"subStr3: \", subStr
    wordList.append(subStr)
    segStr = segStr[0: -wordLen]
    segStrLen = segStrLen - wordLen
  wordList.reverse()
  for wordstr in wordList:
    print \"wordstr: \", wordstr
  return wordList
    
      
def main():
  fp_dict = open(\'words.dic\')
  wordDict = {}
  for eachWord in fp_dict:
    wordDict[u(eachWord.strip(), \'utf-8\')] = 1
  segStr = ur\'你好世界hello world\'
  print segStr
  wordList = bwd_mm_seg(wordDict, 10, segStr)
  print \"==\".join(wordList)
 
if __name__ == \'__main__\':
  main()

以上这篇python正向最大匹配分词和逆向最大匹配分词的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

继续阅读与本文标签相同的文章

无标签

只要5步就能实现智能家电全球化阿里云生活物联网平台2.0了解一下

对python插入数据库和生成插入sql的示例讲解

收藏打印

python正向最大匹配分词和逆向最大匹配分词的实例

浏览：1831 2026-05-02

继续阅读与本文标签相同的文章

只要5步就能实现智能家电全球化阿里云生活物联网平台2.0了解一下

对python插入数据库和生成插入sql的示例讲解

特别推荐 2026年05月19日星期二

精彩发现

热门标签

python正向最大匹配分词和逆向最大匹配分词的实例

浏览：1831 2026-05-02

继续阅读与本文标签相同的文章

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-24栏目： 教程

特别推荐 2026年05月19日 星期二

精彩发现

热门标签

相关文章

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-24栏目：教程

特别推荐 2026年05月19日星期二