技术新讯 > 计算推算,计数设备的制造及其应用技术 > 服务器故障的诊断方法、装置、存储介质及电子设备与流程  >  正文

服务器故障的诊断方法、装置、存储介质及电子设备与流程

  • 国知局
  • 2024-07-31 22:56:16

本技术实施例涉及人工智能,具体而言,涉及一种服务器故障的诊断方法、装置、存储介质及电子设备。

背景技术:

1、服务器故障诊断旨在检测、分析和解决服务器运行中的异常事件,从而保证数据中心的可靠性和安全性。一个典型的服务器故障诊断需经历异常通知、警报检查、日志分析、撰写诊断报告、给出解决方案建议等,上述过程的每个环节可能要经历多次。然而,数据中心故障类型复杂多样,且服务器不同部件间存在高度依赖关系,为故障根因分析、解决带来挑战。一个中等规模的数据中心,在一个月内遇到的异常事件达几十甚至上百个。传统基于人工规则诊断方法高度依赖工作人员的专业知识,一旦工作人员流失,培训一名专业人士需数月甚至数年时间,相关经验无法被快速复用。此外,传统方法也难以全面覆盖类型,紧急情况下无法提供及时响应,在效率、效果上依然存在很大提升空间。在此背景下,半自动化的诊断工具应运而生,用以减轻人力负担、节省成本。这些方法存在以下限制:1) 通常基于经验建立的规则,或结合传统的机器学习模型使用,场景理解能力差,不能使用诊断知识;2)仅能适用于固定场景,一旦场景发生变化,需更改对应的参数、重新训练模型;3)不具备推断能力,比如根据某个故障现象给出潜在的根因、解决方案。

2、因此,以上方案均存在一定的局限性,尤其是在处理大规模、高复杂度的服务器系统时,它们的效率和准确性都受到了限制。

3、针对相关技术中,对大规模、高复杂度的服务器系统的故障诊断效率低下、准确率低的技术问题,目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种服务器故障的诊断方法、装置、存储介质及电子设备,以至少解决相关技术对大规模、高复杂度的服务器系统的故障诊断效率低下、准确率低的问题。

2、根据本技术的一个实施例,提供了一种服务器故障的诊断方法,包括:获取服务器上报警消息对应的异常描述信息;使用预设离线数据库对异常描述信息进行配置,得到异常描述信息对应的目标文档数据以及异常描述信息关联的应用程序编程接口的目标环境数据;基于文档数据和目标环境数据生成提示词集合,并对提示词集合进行初步筛选诊断,得到目标文本;将目标文本输入至专家模型进行故障诊断,得到服务器对应的目标诊断结果,其中,专家模型基于大规模语言模型构建。

3、在一个示例性实施例中,获取服务器上报警消息对应的异常描述信息,包括:确定报警消息对应的报警类型,其中,报警类型至少包括:异常报警类型;在报警消息的报警类型为异常报警类型的情况下,对报警消息进行解析处理,得到报警消息对应的异常描述信息;在报警消息的报警类型不为异常报警类型的情况下,禁止对报警消息进行解析处理。

4、在一个示例性实施例中,使用预设离线数据库对异常描述信息进行配置,得到所述异常描述信息对应的目标文档数据以及所述异常描述信息关联的应用程序编程接口的目标环境数据,上述方法还包括:获取定义的知识格式;其中,知识格式至少包括:异常故障的名称、异常故障的故障内容、异常故障的故障指标、异常故障的分析步骤;通过知识格式对服务器的历史故障数据进行记录;根据记录结果得到历史故障数据对应的学习样本,其中,学习样本用于对大规模语言模型进行训练;确定学习样本对应的历史异常描述信息,以及目标学习样本对应的文档数据;将历史异常描述信息与文档数据关联存储在预设离线数据库。

5、在一个示例性实施例中,使用预设离线数据库对异常描述信息进行配置,得到所述异常描述信息对应的目标文档数据以及所述异常描述信息关联的应用程序编程接口的目标环境数据,上述方法还包括:获取故障诊断中需用到的多个应用程序编程接口工具;确定多个应用程序编程接口工具中每个工具对应的工具类型以及应用程序编程接口工具的使用规范;将工具类型、使用规范、应用程序编程接口工具关联绑定,得到目标环境数据集合;将目标环境数据集合存储在预设离线数据库。

6、在一个示例性实施例中,将目标文本输入至专家模型进行故障诊断,得到服务器对应的目标诊断结果之前,上述方法还包括:确定专家模型允许一次性输入信息的第一长度;识别目标文本对应的第二长度;在确定第一长度大于或等于第二长度的情况下,将目标文本输入至专家模型进行故障诊断;在确定第一长度小于第二长度的情况下,对目标文本进行分割处理。

7、在一个示例性实施例中,在确定第一长度小于第二长度的情况下,对目标文本进行分割处理,包括:构建存储目标文本的目标树结构,其中,目标树结构的根节点表示目标文本中每个章节的标题内容,目标树结构的子节点表示每个章节的内容,内容至少包括:目标文本的原始内容、原始内容对应的总结内容;比较目标树结构中每个节点与其他节点之间内容的相似度;在确定相似度大于或等于预设相似度的情况下,对目标树结构中的节点进行合并;在确定相似度小于预设相似度的情况下,将当前节点对应的子文本内容发送至目标对象判断。

8、在一个示例性实施例中,使用预设离线数据库对异常描述信息进行配置,得到异常描述信息对应的目标文档数据以及应用程序编程接口的目标环境数据,包括:使用目标检索算法从预设离线数据库中查找与异常描述信息相关的知识块;通过知识块中携带的知识文档对异常描述信息进行配置,得到异常描述信息对应的目标文档数据。

9、在一个示例性实施例中,使用目标检索算法从预设离线数据库中查找与异常描述信息相关的知识块,包括:根据第一公式确定异常描述信息对应的检索公式,其中,所述第一公式为:,所述,a表示知识库中某个知识块,b表示服务器异常指标集合对应的异常描述信息,表示异常指标bi在知识块a中出现的频率,avgdl表示知识块的平均长度,k1和d为待定超参,idf(bi)为异常指标bi的逆文档频率,n为提取的知识块总数,n(bi)为包含异常指标bi总文档数;使用检索公式对预设离线数据库中的所有知识块进行检索;根据检索结果确定与异常描述信息相关的知识块。

10、在一个示例性实施例中,使用预设离线数据库对异常描述信息进行配置,得到异常描述信息对应的目标文档数据以及应用程序编程接口的目标环境数据,包括:确定异常描述信息对应的目标应用程序编程接口;获取应用程序编程接口对应的模型微调参数,使用模型微调参数调整预设离线数据库中不同应用程序编程接口工具,得到与异常描述信息对应的应用程序编程接口工具的目标环境数据。

11、在一个示例性实施例中,获取应用程序编程接口对应的模型微调参数,包括: 确定所述模型微调参数对应的目标函数,其中,所述目标函数为,pij为模型预测故障环境信息ci与应用程序编程接口工具tj存在关联性的概率,yij为当前所述异常描述信息对应的故障环境信息与应用程序编程接口工具间存在关联性的概率;根据所述目标函数确定所述应用程序编程接口对应的模型微调参数。

12、在一个示例性实施例中,将目标文本输入至专家模型进行故障诊断之后,上述方法还包括:获取专家模型存在的多个子专家模型;其中,每个子专家模型对应一类故障诊断类型;确定多个子专家模型中与目标文本的相关度最高的目标子专家模型;将目标子专家模型标识为对目标文本进行故障诊断的第一模型。

13、在一个示例性实施例中,确定多个子专家模型中与目标文本的相关度最高的目标子专家模型之后,上述方法还包括:在目标子专家模型至少存在两个的情况下,向目标对象发送用于确定是否开启专家模型的异步诊断流程的确定消息,并接收目标对象对确定消息作出的反馈;在反馈指示确定开启专家模型的异步诊断流程的情况下,将至少存在两个目标子专家模型中的第一个子专家模型的诊断结果发送除第一个子专家模型之外的其他子专家模型。

14、在一个示例性实施例中,将目标文本输入至专家模型进行故障诊断,得到服务器对应的目标诊断结果之后,上述方法还包括:获取目标诊断结果对应的故障修复建议;使用故障修复建议对应的修复操作对服务器中存在的故障进行修复,并获取完成修复后的服务器的运行日志;确定运行日志是否存在报警消息,以确定故障的修复结果。

15、在一个示例性实施例中,获取目标诊断结果对应的故障修复建议之后,上述方法还包括:在故障修复建议至少存在两个的情况下,总结每个故障修复建议对应的确定过程信息;对确定过程信息进行审查;根据审查结果确定每个故障修复建议的使用次序,并生成报警消息对应的诊断报告。

16、根据本技术的另一个实施例,提供了一种服务器故障的诊断装置,包括:获取模块,用于获取服务器上报警消息对应的异常描述信息;配置模块,用于使用预设离线数据库对异常描述信息进行配置,得到异常描述信息对应的目标文档数据以及异常描述信息关联的应用程序编程接口的目标环境数据;生成模块,用于基于文档数据和目标环境数据生成提示词集合,并对提示词集合进行初步筛选诊断,得到目标文本; 诊断模块,用于将目标文本输入至专家模型进行故障诊断,得到服务器对应的目标诊断结果,其中,专家模型基于大规模语言模型构建。

17、根据本技术的又一个实施例,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

18、根据本技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

19、根据本技术的又一个实施例 ,还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

20、通过本技术,获取服务器上报警消息对应的异常描述信息;使用预设离线数据库对异常描述信息进行配置,得到异常描述信息对应的目标文档数据以及异常描述信息关联的应用程序编程接口的目标环境数据;基于文档数据和目标环境数据生成提示词集合,并对提示词集合进行初步筛选诊断,得到目标文本; 将目标文本输入至专家模型进行故障诊断,得到服务器对应的目标诊断结果,其中,专家模型基于大规模语言模型构建,即通过使用包含应用程序编程接口api工具和文档数据的离线数据库进行故障诊断提醒诊断的准确性,并在初步诊断之后再通过训练好的专家模型进行诊断,提升目标诊断结果的确定效率,因此,解决了相关技术对大规模、高复杂度的服务器系统的故障诊断效率低下、准确率低的问题,达到提升诊断准确性和诊断效率的效果。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195411.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。