1、综述

又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。

它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

Trie树结构的优点在于:

1) 不限制子节点的数量;

2) 自定义的输入序列化,突破了具体语言、应用的限制,成为一个通用的框架;

3) 可以进行最大Tokens序列长度的限制;

4) 根据已定阈值输出重复的字符串;

5) 提供单个字符串频度查找功能;

6) 速度快,在两分钟内完成1998年1月份人民日报(19056行)的重复字符串抽取工作。

优点来源于Linux公社网站(www.linuxidc.com)http://www.linuxidc.com/Linux/2012


收藏 打印