ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【架构师面试-搜索-1】-全文检索和倒排索引

2021-12-18 10:02:46  阅读:282  来源: 互联网

标签:搜索 词条 倒排 索引 全文检索 文档 架构师


什么是全文检索

全文检索是利用倒排索引技术对需要搜索的数据进行处理,然后提供快速匹配的技术。其实全文检索还有另外一种专业定义,先创建索引然后对索引进行搜索的过程,就是全文检索。

1:倒排索引

倒排索引是一种存储数据的方式,与传统查找有很大区别:

传统查找:采用数据按行存储,查找时逐行扫描,或者根据索引查找,然后匹配搜索条件,效率较差。概括来讲是先找到文档,然后看是否匹配。查找一个10MB的word文档,大概需要3秒

倒排索引:首先对数据按列拆分存储,然后对文档中的数据分词,对词条进行索引,并记录词条在文档中出现的位置。这样查找时只要找到了词条,就找到了对应的文档。概括来讲是先找到词条,然后看看哪些文档包含这些词条。

2:创建倒排索引流程

当我们需要把这些数据创建倒排索引时,会分为两步:

1:创建文档列表

首先将数据按列进行拆分存储,类型于mysql的表存储,每一条数据,就是一个文档,形成文档列表:

2:创建倒排索引列表

然后对文档中的数据进行分词,得到词条。对词条进行编号,并以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)。

 

流程如下:

 

3:搜索流程

搜索的基本流程:

当用户输入任意的搜索关键词时,首先对用户输入的内容进行词拆分,得到要搜索的所有词条,如用户搜索“java培训”,拆分后就是“java 、培训”,

然后拿着这些拆分后的词去倒排索引列表中进行匹配。找到这些词对应的所有文档编号

然后根据这些编号去文档列表中找到文档。

 

4:什么是ElasticSearch

开源的高扩展的分布式全文检索引擎

近乎实时的检索数据;

本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。

ES使用Java开发【早期是用Maven构建,后期Gradle】

核心是Lucene

如果您觉得文章好看,欢迎点赞收藏加关注,一连三击呀,感谢!!☺☻ 

标签:搜索,词条,倒排,索引,全文检索,文档,架构师
来源: https://blog.csdn.net/chongfa2008/article/details/121988994

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有