网络故障自动化排查的方法及装置与流程
- 国知局
- 2024-10-21 15:11:17
本发明涉及网络管理,具体涉及一种网络故障自动化排查的方法及装置。
背景技术:
1、网络故障排查涉及多领域的专业知识,对安全运维人员有较高的要求和挑战:1)运维人员需要具备扎实的网络和安全知识和技能,包括网络协议、路由器、交换机、负载均衡、防火墙、入侵防御、waf等网络安全设备的配置管理及工作原理;2)需要充分了解网络拓扑结构,但在大型网络中,通常包括多个子网、多个路由器和交换机等设备,增加了故障排查的复杂性;3)需要具备分析大量的日志和数据,以了解问题的根本原因,对大型网络而言,日志和数据的分析可能是一项繁琐且耗时的任务;4)网络故障可能对业务产生重大影响,需要快速响应和解决,运维人员需要在压力下快速定位和解决问题;5)需要具备故障排查的方法和技巧,能够快速定位和解决网络故障;6)故障排查可能需要在生产环境中进行,而生产环境的稳定性和安全性是首要考虑的因素,因此运维人员需要在限制和风险下进行排查。
2、现有的网络故障排查方案需要分别使用多种方法和工具分别独立排查,包括网络监控工具(实时监测网络设备和流量,识别异常情况和故障事件)、网络诊断工具(ping、traceroute等,用于分析网络连接、路由、传输和协议方面的问题,wireshark工具用于分析网络数据包)、网络设备和安全设备排查(配置排查、硬件排查和日志分析)等,存在如下缺点:1)排查故障需要涉及多个设备和多种领域,如排查多台设备、大量的数据收集和分析、处理大量的日志等,排查周期较长;2)排查故障严重依赖于运维工程师的知识经验和技术能力,排查成本高,存在排查不出来或排查不准确的风险,甚至可能对网络性能产生负面影响或引入安全风险;3)故障排查经验较难复用和传递,每次故障排查较多在做重复的工作,运维人员更换时较难将经验有效的传递和复制。
技术实现思路
1、本发明要解决的技术问题是:克服现有技术的不足,提供一种网络故障自动化排查的方法及装置,能够解决网络故障排查对于人工经验的高度依赖、网络故障诊断效率低、网络故障排查经验无法有效利用问题。
2、本发明的技术方案为:
3、一种网络故障自动化排查的方法,所述方法包括如下步骤:
4、s1、通信要素提取;
5、s2、通信要素建模;
6、s3、判断会话流及请求响应流是否正常;
7、s4、查找通信模型匹配的方法及输出故障原因;
8、s5、基于内置的知识库,分析故障原因;
9、s6、基于故障原因生成排查任务;
10、s7、故障排查任务执行流程和故障根因分析流程。
11、优选地,所述步骤s1中通信要素包括:链路层通信要素、网络层通信要素、网络层通信要素、传输层协议通信要素、应用层协议通信要素。
12、优选地,所述步骤s2建模过程包括如下子步骤:
13、s21、会话作为第一层级;
14、s22、链路层、网络层、传输层、应用层等为第二层级;
15、s23、网络层包含的overlay层和underlay层、应用层下的请求响应流作为第三层级;
16、s24、请求响应流下的应用层协议作为第四层级。
17、优选地,所述步骤s3判断会话流及请求响应流正常包括如下要求:
18、s31、判断请求响应码全部在300>2xx≥200范围内,不存在任何其他的响应码;
19、s32、响应流中不存在与请求失败字典匹配的字符串。
20、优选地,所述请求响应流当前请求至少满足s31和s32两个要求之一即是正常的请求响应流;所述会话流则要求当前会话内所有的请求响应流均满足s31和s32两个要求才是正常的会话流,有一个不满足,则为异常的会话流。
21、优选地,所述步骤s4包括如下子步骤:
22、s41、基于五元组信息:源ip、源端口、传输层协议、目的ip、目的端口查找匹配模型;
23、s42、匹配到模型后,基于提取的会话流和请求响应流的协议元数据、通信要素、网络指标,分别基于链路层、网络层、传输层、应用层等进行逐项对比分析,通过对比找出细微变化,提前判断故障的发生;
24、s43、将细微变化对请求响应流打细粒度的标签,源ip协议为维度,以请求响应为单位,以不同的时间颗粒度聚合不同标签的数量、请求响应流的数量,通过同一个源ip、同一个协议横向指标的对比,发现异常。
25、优选地,所述步骤s5包括如下子步骤:
26、s51、基于用户输入的要排查的路径信息,从当前时间开始,以小时为颗粒度切片往前两两对比网络性能指标,寻找出现故障的临界点所在的时间范围;
27、s52、以分钟为颗粒度切片往前两两对比,找到出故障的临界点所在的时间范围。
28、优选地,所述步骤s6基于内置的内置排障任务知识库,知识库按照协议维度和故障原因组织,不同协议的不同故障原因对应不同的故障排查任务。
29、一种网络故障自动化排查的装置,所述装置包括排障软件和故障排查设备,其中:
30、排障软件,安装在pc端和服务端,主要用于接收故障排查设备下发的排查任务进行故障排查和反馈排查结果;
31、故障排查设备,旁路部署于被排查网络中,用于在被旁路设备上配置端口镜像将流量镜像至故障排查设备。
32、本发明与现有技术相比,具有以下有益效果:
33、1、降低网络故障排查对于人工经验的高度依赖,本发明设计的网络故障排查设备和排障软件具备高级运维工程师的能力。
34、2、提高网络故障诊断效率和准确率,本发明将所有故障诊断步骤实现了全部自动化,结合内置的专业的排障经验和通信模型,可实现网络故障的精准排查和高效排查。
35、3、解决故障排查经验无法有效利用和传递的问题,本发明将专业的排障知识库内置于故障排查设备中,且支持客户自定义增加自有的运维排障经验,将经验沉淀于设备中,便利的实现知识经验的积累和共享,不随人员流失导致知识经验的流失。
技术特征:1.一种网络故障自动化排查的方法,其特征在于,所述方法包括如下步骤:
2.如权利要求1所述的网络故障自动化排查的方法,其特征在于,所述步骤s1中通信要素包括:链路层通信要素、网络层通信要素、网络层通信要素、传输层协议通信要素、应用层协议通信要素。
3.如权利要求1所述的网络故障自动化排查的方法,其特征在于,所述步骤s2建模过程包括如下子步骤:
4.如权利要求1所述的网络故障自动化排查的方法,其特征在于,所述步骤s3判断会话流及请求响应流正常包括如下要求:
5.如权利要求4所述的网络故障自动化排查的方法,其特征在于,所述请求响应流当前请求至少满足s31和s32两个要求之一即是正常的请求响应流;所述会话流则要求当前会话内所有的请求响应流均满足s31和s32两个要求才是正常的会话流,有一个不满足,则为异常的会话流。
6.如权利要求1所述的网络故障自动化排查的方法,其特征在于,所述步骤s4包括如下子步骤:
7.如权利要求1所述的网络故障自动化排查的方法,其特征在于,所述步骤s5包括如下子步骤:
8.如权利要求1所述的网络故障自动化排查的方法,其特征在于,所述步骤s6基于内置的内置排障任务知识库,知识库按照协议维度和故障原因组织,不同协议的不同故障原因对应不同的故障排查任务。
9.一种网络故障自动化排查的装置,应用权利要求1-8任一所述的网络故障自动化排查的方法,其特征在于,所述装置包括故障排查设备和排障软件,其中:
技术总结本发明涉及网络管理技术领域,具体涉及一种网络故障自动化排查的方法及装置。所述方法包括S1、通信要素提取;S2、通信要素建模;S3、判断会话流及请求响应流是否正常;S4、查找通信模型匹配的方法及输出故障原因;S5、基于内置的知识库,分析故障原因;S6、基于故障原因生成排查任务;S7、故障排查任务执行流程和故障根因分析流程。所述装置包括排障软件和故障排查设备。本发明能够将人工经验以知识库和剧本的形式内置于网络故障排查设备,解决网络故障排查对于人工经验的高度依赖、网络故障诊断效率低、网络故障排查经验无法有效利用的问题。技术研发人员:孙强,范春磊,陈剑飞,魏昌超,卢媛,张睿,栾卫平,冷小洁,杨尉,穆芮,顾建伟,代朝阳,迟皓锴,荣俊兴,李柔霏,赵慧群,王伟,杨冉昕,王丽锋,王艳红,张志浩,孙伟杰,黄征,贺艳丽,张菡受保护的技术使用者:国网山东省电力公司威海供电公司技术研发日:技术公布日:2024/10/17本文地址:https://www.jishuxx.com/zhuanli/20241021/320779.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。