1、题记
这是stackoverflow上一篇精彩的问答。
原文不大好理解,我做了梳理+图解;
原文是ES早期版本,部分写法已不适用,所有DSL我在6.X上进行了重写和验证;
针对原文内容做了扩展。
2、知识库全文检索问题抛出
重新审视一个停滞不前的项目,并寻求建议,对数千个“旧”文档进行现代化改造,
最终期望效果:通过网络访问这些文档。
文档以各种格式存在,有些已经过时:
- .doc,
- PageMaker,
- 硬拷贝hardcopy (OCR),
- PDF
……
很多文档已经被转化成扫描版的PDF,之前我们认为PDF类型是最终的文档格式,现在看来,我们想听听建议(比如: 是不是更好呢?)
核心需求点:
1、一旦所有文档都采用通用格式,我们希望通过网页界面提供其内容并提供搜索服务。
2、我们希望通过搜索,能够灵活地只返回整个文档的部分页面(我相信的Lucene /
继续阅读与本文标签相同的文章
-
钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】
2026-05-24栏目: 教程
-
你的你的Elasticsearch在“裸奔”吗?在“裸奔”吗?
2026-05-24栏目: 教程
-
可解释的机器学习
2026-05-24栏目: 教程
-
全面布局物联网,少海汇打造两大AIoT独角兽
2026-05-24栏目: 教程
-
干货 | Elasticsearch索引管理利器——Curator深入详解
2026-05-24栏目: 教程
