技术新讯 > 电子通信装置的制造及其应用技术 > 一种云微服务架构的智能运维方法及系统与流程 > 正文

一种云微服务架构的智能运维方法及系统与流程

国知局
2024-12-06 12:26:47

本发明涉及云微服务架构，具体为一种云微服务架构的智能运维方法。

背景技术：

1、近年来，为加快推进整体的数字化转型和信息化建设的深入发展，通过引入微服务云平台来用于信息化系统的建设，便捷了信息化系统需求的快速迭代及开发上线应用，微服务架构将传统的单体应用程序拆分为多个小的、独立的服务，每个服务都可以独立开发、部署和扩展，这有助于提高系统的可扩展性、可维护性和可靠性，微服务架构为智能运维提供了基础，因为它允许对每个服务进行独立的监控、管理和优化。

2、尽管云微服务架构的智能运维系统带来了许多优势，但在现有技术中，仍存在一些不足之处：

3、1、复杂性增加：随着微服务架构的引入，系统的复杂性也相应增加，每个微服务都可能有其独立的监控、日志和配置管理工具，这导致了运维人员需要管理更多的工具和组件，增加了运维的复杂性和难度；

4、2、数据整合挑战：由于微服务架构的分布式特性，数据通常分散在各个微服务中，这使得数据的整合变得困难，缺乏统一的数据管理和分析工具，使得跨多个微服务的故障排查和性能优化变得更加复杂；

5、3、安全性挑战：微服务架构带来了更多的攻击面，因为每个微服务都可能成为潜在的攻击目标，同时，服务间的通信和数据传输也可能成为安全漏洞的来源，现有的安全技术和策略可能无法完全适应微服务架构的需求，导致安全风险增加；

6、4、自动化和智能化程度不足：虽然智能运维系统已经取得了一定的进展，但在自动化和智能化方面仍有待提高，许多运维任务仍然需要人工干预，导致运维效率不高，同时，现有的智能运维系统可能无法完全准确地预测和诊断潜在的问题，导致故障处理不及时或处理效果不佳；

7、5、容器技术的局限性：虽然容器技术为微服务架构提供了良好的支持，但也存在一些局限性，例如，容器之间的隔离性可能无法完全满足某些应用程序的需求，尤其是在需要高性能的场景下，此外，容器技术的安全性也是一个需要关注的问题，一旦一个容器受到攻击，可能会对整个系统造成影响。

技术实现思路

1、鉴于上述存在的问题，提出了本发明。

2、因此，本发明解决的技术问题是：许多现有技术无法实现对物理链路和虚拟链路的实时监控，导致运维团队难以及时掌握网络状态，延误故障处理时间。无法将网络故障告警信息与流量数据进行综合分析，导致运维团队难以全面了解网络健康状况和优先处理重要故障。对丢包率和错包率的处理不够完善，无法保证数据传输的可靠性和准确性。

3、为解决上述技术问题，本发明提供如下技术方案：一种云微服务架构的智能运维方法，包括：

4、应用微服务网络拓扑自动生成模块，采集并分析pod与pod之间的流量信息；

5、基于采集的流量信息，由应用服务拓扑分析单元构建微服务之间的逻辑关系拓扑图；

6、使用节点拓扑分析单元绘制节点拓扑图，分析节点之间的流量数据，使用主机拓扑分析单元绘制主机拓扑图，分析主机流量；

7、部署网络流量指标分析模块，分析物理链路和虚拟链路，结合网络故障告警模块，统计并展示网络故障告警信息。

8、作为本发明所述的一种云微服务架构的智能运维方法的一种优选方案，其中：采集信息包括，流量信息、应用服务信息、节点流量信息、主机流量信息、告警信息。

9、作为本发明所述的一种云微服务架构的智能运维方法的一种优选方案，其中：部署应用微服务网络拓扑自动生成模块，采集并分析pod与pod之间的流量信息包括，流量数据包含上下行速率、平均响应时延、吞吐量、流量大小、丢包率、错包率指标信息；

10、上下行速率公式表示为：

11、

12、其中，δdup表示上行的数据量，δddown表示下行的数据量，δt表示时间间隔；

13、平均响应时延公式表示为：

14、

15、其中，ti表示第i个请求的响应时间，n表示总请求数；

16、吞吐量公式表示为：

17、

18、其中，dtotal表示总传输数据量，ttotal表示总传输时间；

19、流量大小公式表示为：

20、

21、其中，r(t)表示时间t时的流量速率；

22、丢包率公式表示为：

23、

24、其中，nlost表示丢失的数据包数，nsent表示发送的数据包总数；

25、错包率公式表示为:

26、

27、其中，nerror表示出错的数据包数，nsent表示发送的数据包总数；

28、综上所述，全面分析和评价微服务流量数据的各项指标的公式表示为：

29、

30、其中，sanalysis表示综合分析得分，rup,i表示第i个微服务的上行速率，rdown,i表示第i个微服务的下行速率，λ1表示调整参数，tavg,i表示第i个微服务的平均响应时延，ti表示第i个微服务的总传输时间，ri(t)表示第i个微服务在时间t时的流量速率，ploss,i表示第i个微服务的丢包率，perror,i表示第i个微服务的错包率，tput,i表示第i个微服务的吞吐量，n表示微服务的总数。

31、作为本发明所述的一种云微服务架构的智能运维方法的一种优选方案，其中：基于采集的流量信息，由应用服务拓扑分析单元构建微服务之间的逻辑关系拓扑图包括，展示微服务之间的相互调用关系，并设计一个评价模型，综合评价逻辑关系拓扑图；

32、综合考虑了上下行速率、平均响应时延、丢包率和错包率等指标，通过使用指数函数对响应时延进行归一化，并对丢包率和错包率进行惩罚，得到评价模型，公式表示为：

33、

34、其中，ltopo表示逻辑关系拓扑图的综合评价值，rup,i表示第i个微服务的上行速率，rdown,i表示第i个微服务的下行速率，α表示调整参数，tavg,i表示第i个微服务的平均响应时延，ploss,i表示第i个微服务的丢包率，perror,i表示第i个微服务的错包率，n表示微服务的总数。

35、作为本发明所述的一种云微服务架构的智能运维方法的一种优选方案，其中：分析节点之间的流量数据，评估节点链路的性能指标，并筛选出高时延、高负载及异常节点链路；

36、设定时延阈值θdelay，当节点间链路的平均时延tavg>θdelay时，则标记为高时延链路；

37、设定负载阈值θload，当节点间链路的流量负载lload>θload时，则标记为高负载链路；

38、设定异常阈值θerror，当节点间链路的错误包率perror>超过阈值θerror时，则标记为异常链路；

39、通过综合分析节点和主机的流量数据，评估整体网络性能，识别出关键位置的高时延、高负载和异常链路；

40、设综合评估阈值θcomp，当链路的综合性能指标pcomp>阈值θcomp时，则标记为需优先处理的链路；

41、基于节点和主机的综合流量数据，优化资源调度策略，确保资源的高效利用；

42、设资源利用阈值θres，当资源利用率ures>阈值θres时，调整资源调度策略；

43、采集每个节点的上行速率、下行速率、平均响应时延、丢包率和错包率计算每个节点的传输能力，对响应时延进行归一化，将所有节点数据综合起来构建节点流量分析公式，公式表示为：

44、

45、采集每个主机的上行速率、下行速率、平均响应时延、丢包率和错包率，计算整个时间范围内的传输性能，对响应时延进行归一化，将所有主机的数据综合起来构建主机流量分析公式，公式表示为：

46、

47、其中，φnode表示节点之间的流量分析综合值，φhost表示主机之间的流量分析综合值，rup,i表示第i个节点的上行速率，rdown,i表示第i个节点的下行速率，α和β表示调整参数，tavg,i表示第i个节点的平均响应时延，ploss,i表示第i个节点的丢包率，perror,i表示第i个节点的错包率，n表示节点的总数，m表示主机的总数，rup,j(t)表示第j个主机在时间t时的上行速率，rdown,j(t)表示第j个主机在时间t时的下行速率，tavg,j(t)表示第j个主机在时间t时的平均响应时延，ploss,j(t0表示第j个主机在时间t时的丢包率，perror,j(t)表示第j个主机在时间t时的错包率，t表示总时间。

48、作为本发明所述的一种云微服务架构的智能运维方法的一种优选方案，其中：部署网络流量指标分析模块，分析物理链路和虚拟链路，结合网络故障告警模块，统计并展示网络故障告警信息包括，从应用服务、节点、主机不同维度对物理链路和虚拟链路进行分析，统计链路性能，支持查看详细链路列表；结合网络故障告警模块，统计并展示网络故障告警信息，逐层排查定位故障点；

49、将所有链路的数据综合起来，构建链路流量的综合分析函数，公式表示为：

50、

51、将所有告警类型的数据综合起来，构建网络故障告警的综合分析函数，公式表示为：

52、

53、其中，φlink表示链路流量的综合分析值，ψalarm表示网络故障告警的综合分析值，rlink,i表示第i条链路的速率，α和β表示调整参数，tavg,i表示第i条链路的平均时延，ploss,i表示第i条链路的丢包率，perror,i表示第i条链路的错包率，n表示链路的总数，k表示告警类型的总数，wj表示第j种告警的权重，

54、rlink,j(t0表示第j条链路在时间t时的速率，tavg,j(t0表示第j条链路在时间t时的平均时延，ploss,j(t)表示第j条链路在时间t时的丢包率，perror,j(t)表示第j条链路在时间t时的错包率，t表示总时间。

55、作为本发明所述的一种云微服务架构的智能运维方法的一种优选方案，其中：应用微服务网络拓扑自动生成模块：采集pod与pod之间的流量信息，通过分析流量数据，构建微服务之间的逻辑关系拓扑图；

56、网络流量指标分析模块：从应用服务、节点、主机不同维度对物理链路、虚拟链路进行分析，分别统计正常、异常、高时延的链路，支持下钻查看详细链路列表；

57、链路流量采集模块：通过不同采集资源类型安装不同流程采集组件进行流量数据的采集，将采集到的流量数据进行存储，存储到分布式数据库。

58、一种云微服务架构的智能运维系统其中：

59、所述应用微服务网络拓扑自动生成模块包括以下单元：

60、应用服务拓扑分析单元：构建微服务之间的逻辑关系拓扑图，展示应用的微服务之间的相互调用关系，采集pod与pod之间的流量信息，分析流量数据，包括上下行速率、平均响应时延、吞吐量、流量大小、丢包率、错包率指标信息，通过条件筛选出高时延、高负载以及异常的服务链路，以便快速定位和解决问题；

61、节点拓扑分析单元：基于应用服务拓扑图和节点与微服务之间的部署关系，自动绘制出应用的节点拓扑图，分析节点之间的流量数据，评估节点链路的性能指标，包括客户端、服务端关键位置的指标数据，支持通过条件筛选出高时延、高负载以及异常的节点链路，帮助优化网络性能和资源调度；

62、主机拓扑分析单元：根据节点拓扑和节点与主机之间的关系，自动绘制应用的主机拓扑图，观测主机的流量信息，从物理链路层面分析网络流量，快速定位网络丢包和时延的位置，发现负载、时延较高的链路，为资源的合理分配提供数据支撑，提高系统性能和稳定性；

63、所述网络流量指标分析模块包括以下单元：

64、网络链路性能分析单元：从不同维度对物理链路和虚拟链路进行分析，统计正常、异常、高时延的链路，支持下钻查看详细链路列表，以便深入了解链路的性能状况和可能的问题；

65、网络链路总览表单元：提供网络链路总览表，直观展示每条物理链路和虚拟链路的性能信息，包括网络速率、时延、丢包、吞吐量、流量指标，支持按不同指标进行排序展示，同时支持按名称、状态、高时延、高吞吐量条件查询展示，方便用户快速找到关注的链路；

66、网络流量指标分析单元：从应用服务、节点、主机不同维度进行网络流量指标分析，提供多种形式的数据展示，包括排名方式、分布方式以及趋势分析；

67、网络故障告警单元：按照紧急、重要、一般不同告警级统计网络故障告警信息，以图表方式展示告警信息，并支持下钻查看详细告警信息，支持从源端物理网络、物理服务器到虚拟网络ovs、虚拟机、容器的各个层级进行钻取，对物理链路、虚拟链路统一进行链路逐跳排查，从物理网络、虚拟网络、虚拟网元丢包和时延数据定位故障点；

68、所述链路流量采集模块包括以下单元：

69、自动构建链路单元：通过系统的数据处理平台，对系统采集到的链路信息进行识别分析和自动管理，从而实现关系链路的自动生成，构建出完整的网络拓扑图，帮助用户了解系统内部的通信关系；

70、虚拟机流量采集单元：使用scapy采集技术实现虚拟机流量采集组件，该组件运行在kvm宿主机的虚拟机上，对虚拟机的网络流量进行采集，实时监控虚拟机之间的通信情况，了解虚拟化环境中的网络活动；

71、宿主机采集单元：同样基于scapy采集技术，实现主机流量采集组件，该组件运行在宿主主机或云虚拟机上，对其网络流量进行采集，监控宿主机与外部网络之间的通信，以及宿主机上运行的各种服务之间的通信情况。

72、一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。

73、一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。

74、本发明的有益效果：本发明提供的一种云微服务架构的智能运维方法通过自动生成微服务网络拓扑，提高系统透明度和可控性的效果，帮助运维人员在故障发生时迅速定位问题，减少故障排查时间，提高系统的整体稳定性和可靠性。利用采集到的流量数据，生成微服务之间的逻辑关系拓扑图，展示各微服务间的调用关系和数据流向。达到了提升系统可视化管理水平的效果，使得系统维护更加高效，运维人员能够快速了解和调整微服务之间的依赖关系，优化系统性能和资源分配。