基于Elasticsearch的多文档检索 比如 商品(goods)、案例(cases)

2023-09-12 22:31:03

概述

Elasticsearch多文档聚合检索

详细

记得把这几点描述好咯:需求(要做什么) + 代码实现过程 + 项目文件结构截图 + 演示效果

应用场景

我们需要在五种不同的文档中检索数据。
比如 商品(goods)、案例(cases)、日记(diaries)、帖子(posts)、商家(shops)。
我们现在需要用关键字做全文检索,但是命中结果需要包含每一类数据。
goods->如果关键字命中,最多返回4条,不命中返回0条。
cases、diaries、posts、shops 4类数据都遵循上诉规则,就是每一类最多返回4条,没有关键词命中,则不返回。

1.分开检索每一类索引文档

为了赶工期,由于业务场景中,有单类索引检索的需求,所以一开始,我们重用了单索引的code,直接在接口层聚合5类数据。但是这样我们搜索服务与应用服务的开销无疑是增大了很多。我们来看看接口调用:
 


看到这儿,是不是有些难受。这么多调用,这么多并发,只想说一句,难受啊。是的,我心里也很难受,所以我们必须做出改变

2.一起来优化优化吧

不应该访问这么多服务,我们知道ES是可以一次性检索多类文档。我们当然希望,一次让ES返回我们所有的检索数据,那当然是最好的。我们来看看简化后的流程:
 


哟西,好像简洁了很多

3.把任务一次性交给Elasticsearch

优化之后的请求,少了服务的多次调用,少了并发的开销,我们把所有大部分任务一次性交给了SE(search engine),通过SE的计算,我们只需要一次调用服务,就可以拿到想要的所有数据,进行数据的分类封装,就可以返回给客户端使用了。那么这个过程又发生了哪些变化呢?在coding过程中,用到了哪些知识呢?下面我们一起来code share吧。

4.通过聚合函数平均返回值

要点:
terms aggregation — Bucket aggregation
topHints aggregation — Metrics aggregation

terms aggregation是Elasticsearch的Bucket aggregation,就是聚合桶;topHints aggregation 是Elasticsearch Metrics aggregation ,指标聚合。
terms aggregation — 提供根据某个字段进行装桶,可以认为是根据指定key进行分组。桶聚合的特点,只能返回桶的数据。比如:根据”_index”分组,那我们聚合桶就只有_index的值,而不能拿到命中的数据。
topHints aggregation — 返回排序靠前的数据,值得注意的是,支持返回最大的size 是 200。指标聚合,会根据桶内的数据进行指标计算。topHint 可以让我们拿到命中的数据。
说明:在这里介绍下metrics aggregation 、Bucket Aggregation的区别。metrics Aggregation 是对聚合数据的计算。Bucket Aggregation 用于对数据进行分组。往往我们在业务实现中,DSL中是需要有多种类型的aggregation的。
根据topHints aggregation 的特点,我们利用这样的方法检索,每类数据返回结果是不能超过200条的

5.code share

核心代码:
 


**aggregationBuilder 语义说明:

1.创建名称为 “index-group”的terms bucket
2.然后在每个terms bucket中创建名称为”details”的 topHints aggregation的子聚合。
3.子聚合中根据”_score”(命中分数),进行排序。

项目结构补充

更多推荐

java学习平台springboot004

大家好✌!我是CZ淡陌。一名专注以理论为基础实战为主的技术博主,将再这里为大家分享优质的实战项目,本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目,希望你能有所收获,少走一些弯路,向着优秀程序员前行!🍅更多优质项目👇🏻👇🏻可点击下方获取🍅文章底部或评论区获取🍅Java项目精品实

【SpringCloud微服务全家桶学习笔记-服务调用Ribbon/openFeign】

SpringCloud微服务全家桶学习笔记内容:SpringCloud+SpringCloudalibaba技术栈:Java8+maven+git,github+Nginx+RabbitMQ+SpringBoot2.0仓库:链接服务调用Ribbon是什么?Ribbon是Netflix发布的开源项目,主要功能是提供客户端

【LeetCode每日一题合集】2023.9.11-2023.9.17(⭐反悔贪心&拓扑排序&Floyd)

文章目录630.课程表III解法——反悔贪心⭐⭐⭐⭐⭐1462.课程表IV⭐解法1——拓扑排序预处理解法2——Floyd算法判断是否存在路径2596.检查骑士巡视方案(方向模拟)1222.可以攻击国王的皇后(方向模拟)LCP50.宝石补给(简单模拟)198.打家劫舍(经典线性DP)213.打家劫舍II(循环打家劫舍)代

成功入选 2023 谷歌出海创业加速器,Tapdata 乘势远航

9月6日,2023Google开发者大会的收官之行于上海拉开帷幕。会间,官方正式公布了最新一期谷歌出海创业加速器入营名单,Tapdata成功入选:长期以来,Google开发者大会为开发者提供了一个独一无二的学习和合作机会,这是一场汇聚全球创新者的聚会,鼓励创新思维。从中能够深入了解最新的技术趋势、工具和平台,与行业内顶

Linux学习-HIS系统部署(2)

GitLab服务器搭建使用rpm包本地部署GitLab服务器#确认GitLab主机硬件配置,注GitLab服务器至少要有4G内存,关闭SWAP分区[root@gitlab~]#free-mtotalusedfreesharedbuff/cacheavailableMem:40211163786161183720Swap

【文末送书】计算机网络编程 | epoll详解

欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源

【无公网IP】安装Wnmp并结合内网穿透,实现灵活可靠的外网访问内网服务!

文章目录前言1.Wnmp下载安装2.Wnmp设置3.安装cpolar内网穿透3.1注册账号3.2下载cpolar客户端3.3登录cpolarwebui管理界面3.4创建公网地址4.固定公网地址访问前言WNMP是Windows系统下的绿色Nginx+Mysql+PHP环境集成套件包,安装完成后即可得到一个Nginx+My

erlang练习题(二)

题目一替换元组或列表中指定位置的元素,新元素作为参数和列表或元组一起传入函数内解答replaceIdx(List,Index,Val)->replaceIdx(List,Index,Val,1,[]).replaceIdx([],_,_,_,Acc)->lists:reverse(Acc);%%到达替换位置的处理rep

期权如何交易?期权如何做模拟交易?

买卖期权的第一步就是要有期权账户,国内的期权品种有商品期权和ETF期权以及股指期权,每种的开户方式和要求都不同,下文为大家介绍期权如何交易?期权如何做模拟交易?一、期权交易需要开立一个期权账户,可以交易期权的平台有证券/期货公司、三方的期权平台。期权交易从方向上可以分为看涨期权和看跌期权,对于这两种期权在交易上又都可以

排序算法:归并排序(递归和非递归)

朋友们、伙计们,我们又见面了,本期来给大家解读一下有关排序算法的相关知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成!C语言专栏:C语言:从入门到精通数据结构专栏:数据结构个人主页:stackY、​目录1.归并排序1.1递归版本代码演示:1.2非递归版本代码演示:测试排序:改正代码1:测试排序:

慢查询SQL如何优化

一.什么是慢SQL?慢SQL指的是Mysql中执行比较慢的SQL,排查慢SQL最常用的方法是通过慢查询日志来查找慢SQL。Mysql的慢查询日志是Mysql提供的一种日志记录,它用来记录Mysql中响应时间超过long_query_time值的sql,long_query_time的默认时间为10s.二.查看慢SQL是

热文推荐