1、题记

这是stackoverflow上一篇精彩的问答。

原文不大好理解,我做了梳理+图解;
原文是ES早期版本,部分写法已不适用,所有DSL我在6.X上进行了重写和验证;
针对原文内容做了扩展。

2、知识库全文检索问题抛出

重新审视一个停滞不前的项目,并寻求建议,对数千个“旧”文档进行现代化改造,

最终期望效果:通过网络访问这些文档。
文档以各种格式存在,有些已经过时:

  • .doc,
  • PageMaker,
  • 硬拷贝hardcopy (OCR),
  • PDF

    ……

很多文档已经被转化成扫描版的PDF,之前我们认为PDF类型是最终的文档格式,现在看来,我们想听听建议(比如: 是不是更好呢?)

核心需求点:

1、一旦所有文档都采用通用格式,我们希望通过网页界面提供其内容并提供搜索服务。

2、我们希望通过搜索,能够灵活地只返回整个文档的部分页面(我相信的Lucene /


收藏 打印