技术新讯 > 计算推算,计数设备的制造及其应用技术 > 资源异常处理方法、系统及服务器与流程 > 正文

资源异常处理方法、系统及服务器与流程

国知局
2024-07-31 23:10:31

本发明数据处理领域，尤其是涉及一种资源异常处理方法、系统及服务器。

背景技术：

1、flink集群等分布式系统中设置有大量机器设备，这些硬件设备在运行过程中会出现硬件问题，如磁盘故障、机器宕机、内存故障等，从而导致机器设备卡顿；在处理大批量的作业时还会出现软件问题，如磁盘io占满、作业间相互竞争影响等，从而影响作业的部署和运行。当资源被分配到宕机节点，就会导致资源不能迅速准备就绪，作业至少需5分钟及以上时间才能完成启动；当资源被调度到运行速度较慢的节点，就导致任务管理器的启动时间延长，从而导致整个作业的启动速度减缓；在作业运行阶段，如果机器出现问题，可能会导致该机器上的作业处理速度下降，引发个别分区的消费延迟甚至产生反压。

2、在解决上述技术问题时，现有技术中的处理方案还无法做到实时准确的处理异常节点，导致flink集群的稳定性及可维护性较低。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种资源异常处理方法、系统及服务器，该方法基于flink集群的运行数据全面感知硬件和软件的异常信息从而生成对应的节点识别策略，无需明确详细的异常原因就直接感知异常的发生，从而提高了异常检测的敏感性；进而通过节点识别策略确定异常信息相应的节点处理方案和作业处理方案来生成资源处理方案，从资源管理的角度上简化了异常处理过程，提高了flink集群的稳定性和可维护性。

2、第一方面，本发明实施方式提供了一种资源异常处理方法，该方法应用于flink集群，该方法包括：

3、获取flink集群的节点资源，并根据节点资源的作业节点和控制节点确定flink集群的运行数据；

4、基于运行数据实时获取flink集群中包含的异常信息，并根据异常信息的类型生成对应的节点识别策略；

5、利用节点识别策略确定异常信息对应的节点处理方案和作业处理方案，并通过节点处理方案和作业处理方案生成异常信息对应的资源处理方案；

6、控制flink集群执行资源处理方案后清除异常信息。

7、在一种实施方式中，获取flink集群的节点资源，并根据节点资源的作业节点和控制节点确定flink集群的运行数据的步骤，包括：

8、根据flink集群的设备指标参数和任务指标参数确定节点资源；其中，设备指标参数包括：中央处理器指标参数、内存指标参数、线程参数、java虚拟机参数、网络指标参数、输入/输出参数、内存管理指标参数，任务指标参数包括：作业管理器指标参数、任务管理器指标参数、处理槽指标参数、作业指标参数、算子指标参数；

9、通过同一作业下节点资源对应的作业节点和控制节点，获取作业下flink集群对应的运行指标数据和异常信息数据；

10、利用运行指标数据和异常信息数据确定运行数据。

11、在一种实施方式中，基于运行数据实时获取flink集群中包含的异常信息，并根据异常信息的类型生成对应的节点识别策略的步骤，包括：

12、根据运行数据中所有flink运行作业对应的运行异常数据和启动异常数据确定flink集群中包含的异常信息；其中，运行异常数据包括：输入/输出异常数据、心跳超时异常数据、任务管理器异常数据、任务运行异常数据；启动异常数据包括：内存空间异常数据、作业管理器启动异常数据、任务管理器启动异常数据；

13、获取flink运行作业对应的异常信息，利用异常信息对应的类型参数确定节点识别策略；其中，类型参数对应故障节点类型和慢节点类型。

14、在一种实施方式中，获取flink运行作业对应的异常信息，利用异常信息对应的类型参数确定节点识别策略的步骤，包括：

15、获取同一时间窗口内且同一节点下flink运行作业对应的异常信息；

16、根据异常信息中包含的运行异常数据和启动异常数据，确定flink集群对应的故障节点；

17、利用故障节点对应的类型参数确定节点识别策略。

18、在一种实施方式中，获取flink运行作业对应的异常信息，利用异常信息对应的类型参数确定节点识别策略的步骤，包括：

19、根据运行数据中所有flink运行任务对应的数据吞吐数据，确定flink运行作业对应的异常信息；

20、确定异常信息对应的任务管理器数量；

21、当任务管理器数量超过预设阈值时，确定flink集群对应的慢节点；

22、利用慢节点对应的类型参数确定节点识别策略。

23、在一种实施方式中，根据运行数据中所有flink运行任务对应的数据吞吐数据，确定flink运行作业对应的异常信息的步骤，包括：

24、获取运行数据中所有flink运行任务对应的数据吞吐数据，并确定数据吞吐数据对应的数据吞吐量；

25、若数据吞吐量不超过预设的第一阈值，则获取运行数据中包含的消息处理耗时数据，并确定消息处理耗时数据对应的耗时时长；

26、若耗时时长超过预设的第二阈值，则获取flink运行作业对应的异常信息。

27、在一种实施方式中，利用节点识别策略确定异常信息对应的节点处理方案和作业处理方案，并通过节点处理方案和作业处理方案生成异常信息对应的资源处理方案的步骤，包括：

28、获取节点识别策略对应的类型参数；其中，类型参数对应故障节点类型和慢节点类型；

29、根据类型参数确定的异常节点处理方案、慢节点处理方案以及任务运行监控方案，确定节点处理方案和作业处理方案；

30、利用节点处理方案和作业处理方案生成异常信息对应的资源处理方案；其中，节点处理方案通过yarn进行节点处理；作业处理方案通过flick进行作业处理。

31、在一种实施方式中，控制flink集群执行资源处理方案后清除异常信息的步骤，包括：

32、基于资源处理方案确定flink集群的异常处理方式和异常处理时机；

33、根据异常处理方式对异常信息对应的节点及任务进行处理，并根据异常处理时机对异常信息对应的重启时机及清除时机进行处理；

34、在使用异常处理方式和异常处理时机对flink集群执行资源异常处理后，清除资源处理方案对应的异常信息。

35、第二方面，本发明实施方式提供一种资源异常处理系统，该系统应用于flink集群，系统包括：

36、运行数据获取模块，用于获取flink集群的节点资源，并根据节点资源的作业节点和控制节点确定flink集群的运行数据；

37、节点识别策略确定模块，用于基于运行数据实时获取flink集群中包含的异常信息，并根据异常信息的类型生成对应的节点识别策略；

38、资源处理方案生成模块，用于利用节点识别策略确定异常信息对应的节点处理方案和作业处理方案，并通过节点处理方案和作业处理方案生成异常信息对应的资源处理方案；

39、异常信息处理模块，用于控制flink集群执行资源处理方案后清除异常信息。

40、第三方面，本发明实施方式还提供一种服务器，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现第一方面提供的资源异常处理方法的步骤。

41、第四方面，本发明实施方式还提供一种存储介质，该存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现第一方面提供的资源异常处理方法的步骤。

42、本发明实施方式提供的一种资源异常处理方法、系统及服务器，该方法应用于flink集群在大量作业和机器的复杂环境中进行异常处理的场景中，具体在对资源进行配置时，首先获取flink集群的节点资源，并根据节点资源的作业节点和控制节点确定flink集群的运行数据；然后基于运行数据实时获取flink集群中包含的异常信息，并根据异常信息的类型生成对应的节点识别策略。具体可使用flink任务监控节点和任务，使得节点异常的判断速度提高到秒级。通过监控多个作业的异常情况，特别是来自同一节点的异常，能够更快速、更准确地发现可能存在故障的节点，提高了异常检测的敏感性。随后利用节点识别策略确定异常信息对应的节点处理方案和作业处理方案，并通过节点处理方案和作业处理方案生成异常信息对应的资源处理方案；最后控制flink集群执行资源处理方案后清除异常信息。该方法基于flink集群的运行数据全面感知硬件和软件的异常信息从而生成对应的节点识别策略，无需明确详细的异常原因就直接感知异常的发生，从而提高了异常检测的敏感性；进而通过节点识别策略确定异常信息相应的节点处理方案和作业处理方案来生成资源处理方案，从资源管理的角度上简化了异常处理过程，提高了flink集群的稳定性和可维护性。

43、本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

44、为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。