技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据搜索方法及相关装置、设备、系统和存储介质与流程  >  正文

数据搜索方法及相关装置、设备、系统和存储介质与流程

  • 国知局
  • 2024-07-31 22:42:05

本申请涉及数据处理,特别是涉及一种数据搜索方法及相关装置、设备、系统和存储介质。

背景技术:

1、数据搜索在门户网站、搜索引擎等众多应用中均具有极其重要意义。例如,在门户网站的应用场景中,通过数据搜索技术可以为用户检索出与其输入文本相匹配的数据资料。

2、在实际应用时,针对特殊场景或定制场景等应用场合,同时需要确保不响应包含特定词语的检索文本,即在启动数据搜索时需要检测检索文本中是否包含特定词语。但是,现有的检测技术存在效率低下的问题,由此而影响数据搜索效率。有鉴于此,如何在数据搜索时尽可能地确保不响应包含特定词语的检索文本前提下,提升数据搜索效率,成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种数据搜索方法及相关装置、设备、系统和存储介质,能够在数据搜索时尽可能地确保不响应包含特定词语的检索文本前提下,提升数据搜索效率。

2、为了解决上述技术问题,本申请第一方面提供了一种数据搜索方法,包括:基于目标词库进行预加载,得到词状态树;其中,目标词库包含若干目标词语,词状态树包含各个目标词语分别连接于根节点的状态路径,目标词语的状态路径中状态节点表征起始于目标词语中首个字符的字符串,且目标词语的状态路径中各组相邻状态节点之间的转移状态依次为目标词语的各个字符;响应于用户输入的检索文本,基于词状态树对检索文本进行检测,得到表征检索文本中是否包含目标词语的检测结果;基于检测结果,确定是否检索与检索文本相关的目标数据。

3、为了解决上述技术问题,本申请第二方面提供了一种数据搜索装置,包括:词库加载模块、文本检测模块和数据检索模块,词库加载模块,用于基于目标词库进行预加载,得到词状态树;其中,目标词库包含若干目标词语,词状态树包含各个目标词语分别连接于根节点的状态路径,目标词语的状态路径中状态节点表征起始于目标词语中首个字符的字符串,且目标词语的状态路径中各组相邻状态节点之间的转移状态依次为目标词语的各个字符;文本检测模块,用于响应于用户输入的检索文本,基于词状态树对检索文本进行检测,得到表征检索文本中是否包含目标词语的检测结果;数据检索模块,用于基于检测结果,确定是否检索与检索文本相关的目标数据。

4、为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行程序指令以实现上述第一方面中的数据搜索方法。

5、为了解决上述技术问题,本申请第四方面提供了一种数据搜索系统,包括若干业务子系统、数据库服务器、通信连接于业务子系统与数据库服务器之间的网关设备,以及通信连接于数据库服务器的搜索服务器,业务子系统通过网关设备同步数据至数据库服务器,且搜索服务器为上述第三方面中的电子设备。

6、为了解决上述技术问题,本申请第五方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的数据搜索方法。

7、上述方案,基于目标词库进行预加载,得到词状态树,且目标词库包含若干目标词语,词状态树包含各个目标词语分别连接于根节点的状态路径,目标词语的状态路径中状态节点表征起始于目标词语中首个字符的字符串,目标词语的状态路径中各组相邻状态节点之间的转移状依次为目标词语的各个字符。在此基础上,响应于用户输入的检索文本,基于词状态树对检索文本进行检测,得到表征检索文本中是否包含目标词语的检测结果,从而基于检测结果,确定是否检索与检索文本相关的目标数据,由于在数据检索时先基于目标词库预加载得到词状态树,且词状态树中每条状态路径对应于一目标词语,状态路径中相邻状态节点之间的转移状态依次为目标词语的各个字符,即在对检索文本检测时,仅需检索文本与状态路径进行匹配即可,有助于大大提升检测检索文本中是否包含目标词语的效率,进而推动数据检索效率。故此,能够在数据搜索时尽可能地确保不响应包含特定词语的检索文本前提下,提升数据搜索效率。

技术特征:

1.一种数据搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述词状态树对所述检索文本进行检测,得到表征所述检索文本中是否包含所述目标词语的检测结果,包括:

3.根据权利要求2所述的方法,其特征在于,在所述依次选择所述检索文本中各个字符,分别作为当前字符之后,以及在所述基于所述当前字符筛选所述词状态树,得到筛选结果之前,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述基于筛选到的状态节点所在的状态路径继续进行检测,包括:

5.根据权利要求1所述的方法,其特征在于,所述目标数据由搜索系统至少基于各个文档数据的数据索引进行检索得到,在所述基于所述词状态树对所述检索文本进行检测,得到表征所述检索文本中是否包含所述目标词语的检测结果之后,以及在所述基于所述检测结果,确定是否检索与所述检索文本相关的目标数据之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于数据传输对象的文件夹,创建所述搜索系统所需的数据索引,包括:

7.根据权利要求1所述的方法,其特征在于,在确定检索所述目标数据的情况下,在所述基于所述检测结果,确定是否检索与所述检索文本相关的目标数据之后,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述基于以所述若干词语的不同表达形式分别进行搜索时文档数据的搜索得分,聚合得到所述文档数据的最终得分,包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

10.一种数据搜索装置,其特征在于,包括:

11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的数据搜索方法。

12.一种数据搜索系统,其特征在于,包括若干业务子系统、数据库服务器、通信连接于业务子系统与所述数据库服务器之间的网关设备,以及通信连接于所述数据库服务器的搜索服务器,所述业务子系统通过所述网关设备同步数据至所述数据库服务器,且所述搜索服务器为权利要求11所述的电子设备。

13.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至9任一项所述的数据搜索方法。

技术总结本申请公开了一种数据搜索方法及相关装置、设备、系统和存储介质,其中,数据搜索方法包括:基于目标词库进行预加载,得到词状态树;其中,目标词库包含若干目标词语,词状态树包含各个目标词语分别连接于根节点的状态路径,目标词语的状态路径中状态节点表征起始于目标词语中首个字符的字符串,且目标词语的状态路径中各组相邻状态节点之间的转移状态依次为目标词语的各个字符;响应于用户输入的检索文本,基于词状态树对检索文本进行检测,得到表征检索文本中是否包含目标词语的检测结果;基于检测结果,确定是否检索与检索文本相关的目标数据。上述方案,能够在数据搜索时尽可能地确保不响应包含特定词语的检索文本前提下,提升数据搜索效率。技术研发人员:刘志乾,武浩,黄锐,高乐受保护的技术使用者:安徽省大数据中心技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194172.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。