技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于嵌入向量实现运维知识搜索的方法与流程 > 正文

一种基于嵌入向量实现运维知识搜索的方法与流程

国知局
2024-08-08 17:04:20

本发明涉及文本检索，尤其涉及一种基于嵌入向量实现运维知识搜索的方法。

背景技术：

1、运维知识搜索在现代信息技术环境中具有重要意义，不仅可以快速检索得到相关的解决方案，节省运维问题的排查和解决时间，而且还可以实现部分运维任务的自动化，从而可以提升运维效率，因此，运维知识检索的精确度会直接影响运维效率和效果。

2、目前，运维知识检索通常是通过文本检索的方式实现，市场上绝大多数文本检索技术是基于elasticsearch（es）算法实现的，尽管在索引和查询机构化或者半结构化数据方面表现优异，但在一些特定功能和场景下存在劣势，例如，仅通过关键字匹配等传统检索方法，缺乏对运维查询语句的深层次语义分析能力，因此其检索精度和检索效率较低，逐渐不能满足日益提升的检索需求。

3、因此，本发明提供一种基于嵌入向量实现运维知识搜索的方法。

技术实现思路

1、本发明提供一种基于嵌入向量实现运维知识搜索的方法，用以提高运维知识检索结果的准确性，并提升检索效率，保证后续的运维效果和效率。

2、本发明提供一种基于嵌入向量实现运维知识搜索的方法，包括：

3、步骤1：获取初始文本数据，并利用预设预处理方法对所述初始文本数据进行预处理，得到第一数据；

4、步骤2：结合预设向量数据库并利用预设语言模型对所述第一数据进行映射，得到对应的第一向量；

5、步骤3：结合预设知识库通过预设算法对所述第一向量进行相似分析，输出向量分析结果；

6、步骤4：利用预设排序方法对预设知识库中与所述向量分析结果对应的文档进行排序，并基于预设选取指令选取得到检索结果。

7、优选的，步骤1中，包括：

8、实时获取系统输入的检索指令，并识别得到对应的文本数据以及数据格式，输出初始文本数据；

9、基于所述初始文本数据，获取得到相应的预设预处理方法，并利用所述相应的预设预处理方法对所述初始文本数据进行预处理得到第一数据。

10、优选的，基于所述初始文本数据，获取得到相应的预设预处理方法，包括：

11、对所述初始文本数据进行关键词识别和提取，构建得到关键词识别结果；

12、同时，对所述初始文本数据进行特征提取，并结合所述关键词识别结果以及提取特征在方法数据库中选取得到相应的预设预处理方法。

13、优选的，步骤2中，包括：

14、获取目标转换格式，并结合所述第一数据对应的数据格式，获取得到相应的预设语言模型；

15、基于所述预设语言模型，将第一数据转换为向量表示，得到第一向量，同时，建立第一数据与第一向量之间的索引，并将其中的新索引关系同步更新至预设向量数据库。

16、优选的，建立第一数据与第一向量之间的索引，并将其中的新索引关系同步更新至预设向量数据库，包括：

17、基于所述第一数据与第一向量的向量空间映射关系，构建索引关系列表；

18、将所述索引关系列表与预设向量数据库中的索引数据进行差异分析，并将满足第一预设条件的新索引关系同步至预设向量数据库中。

19、优选的，步骤3中，包括：

20、对生成的所有所述第一向量进行解析，得到与单词对应的第一子向量，并将所述第一子向量与预设知识库中的第一向量集中的各向量进行相似分析，得到第一结果；

21、基于所述第一结果，对预设范围内相邻单词对应的所述第一子向量进行合并，得到词汇总向量集；

22、结合在句式数据库中选取得到的多个预设句式结构，对所述词汇总向量集进行划分，构建得到异构句向量集和同构句向量集；

23、将所述异构句向量集输入预设知识库中与对应的第二向量集进行相似分析，得到第二结果；

24、同时，将所述同构句向量集与预设知识库中的第二向量集进行相似分析，得到同构句分析结果；

25、对同一所述同构句向量集下的所有同构句分析结果进行共识，得到第三结果；

26、对所有所述第一结果、第二结果以及第三结果进行汇总，得到第一分析结果；

27、通过预设上下文-语境分析模块对所述第一分析结果进行上下文分析和语境分析，并基于上下文分析结果和语境分析结果对所述第一分析结果进行调整，得到向量分析结果。

28、优选的，步骤4中，包括：

29、获取与所述初始文本数据对应的检索需求，输出需求信息；

30、基于所述需求信息，在模型数据库中选取得到至少两种不同的预设语言模型，构建得到模型库；

31、基于所述模型库中的多个预设语言模型，对第一数据进行映射并进行相似分析，得到与各预设语言模型对应的并行分析结果；

32、同时，将各预设语言模型对应的模型标识信息标注至对应的并行分析结果中，得到模型分析结果；

33、获取各预设语言模型对应的所述模型分析结果的格式信息，并结合预设标准化方法进行格式转换，得到各预设语言模型对应的标准化分析结果；

34、对所述标准化分析结果进行特征识别和特征提取，得到各预设语言模型下的特征集；

35、基于所述特征集，且结合预设特征-系数对照表在权重数据库中选取得到与各所述标准化分析结果对应的第一权重系数；

36、同时，结合所述需求信息在历史数据库中获取得到与各所述特征集对应的历史检索记录以及热力图；

37、基于所述历史检索记录以及热力图，对所述第一权重系数进行修正，得到第二权重系数；

38、基于各预设语言模型下的标准化分析结果以及对应的第二权重系数，利用预设分析方法得到各预设语言模型对应的相关度；

39、基于所述相关度，按照预设排序方法对各所述标准化分析结果对应的文档进行排序，得到检索结果排序表；

40、基于预设选取指令对所述检索结果排序表中的数据进行选取，输出检索最终结果。

41、优选的，基于各预设语言模型下的标准化分析结果以及对应的第二权重系数，利用预设分析方法得到各预设语言模型对应的相关度，包括：

42、对各预设语言模型对应的标准化分析结果进行一次内容解析，并对解析内容进行聚类分析，分别得到每一预设语言模型下的字符向量集、词向量集、句向量集以及段落向量集；

43、基于所述字符向量集、词向量集、句向量集以及段落向量集之间的映射关系，构建得到与各预设语言模型对应的字符-词-句-段落嵌入向量集；

44、基于各预设语言模型下的特征集在方法数据库中选取得到第一预设分析方法，同时，基于各预设语言模型下的所述特征集在预设向量数据库中选取得到与各预设语言模型对应的字符-词-句-段落嵌入向量集对应的对比向量集；

45、将所述字符-词-句-段落嵌入向量集与对比向量集中对应的向量进行维度匹配；

46、基于所述第一预设分析方法以及第二权重系数，将匹配结果满足预设阈值条件的所述字符-词-句-段落嵌入向量集与对应的对比向量集中对应的向量进行分析，得到各预设语言模型对应的第一相似度；

47、；

48、其中，表示与第i个预设语言模型对应的第一相似度；表示第i个预设语言模型下的字符向量集、词向量集、句向量集以及段落向量集的自相关调节因子；表示第i个预设语言模型下字符向量集、词向量集、句向量集以及段落向量集之间的互相关调节因子；e表示指数函数；m表示进行比较的两个向量对应的维度；表示第i个预设语言模型下的所述字符-词-句-段落向量集中各向量在向量空间中位于第j维度的坐标值；表示第i个预设语言模型下的所述对比向量集中各对应向量在向量空间中位于第j维度的坐标值；

49、同时，在方法数据库中选取得到与所述第一预设分析方法不同的至少一种第二预设分析方法，并基于所述第二预设分析方法得到第二相似度；

50、对同一模型下的各所述第一相似度、第二相似度进行共识，基于共识结果得到各预设语言模型的相关度。

51、本发明提供的一种基于嵌入向量实现运维知识搜索的方法，通过利用预设预处理方法对获取得到的初始文本数据进行预处理，提升了运维检索数据的精确性，为后续的运维检索提供便利，随后通过预设语言模型获取得到对应的嵌入向量，并结合预设算法进行相似分析，通过向量分析的方法提升了对运维检索信息的语义理解能力，在查询和文档之间没有完全匹配的关键词的情况下，也可以根据语义相似性准确检索相关内容，提高了检索的精确性。本发明还可以结合多种模型的并行向量分析结果来进一步提升检索结果的精确性。