技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于云边端协同的任务负载均衡调度方法  >  正文

一种基于云边端协同的任务负载均衡调度方法

  • 国知局
  • 2024-07-31 22:43:41

本发明涉及计算机网络通信,尤其涉及一种基于云边端协同的任务负载均衡调度方法。

背景技术:

1、随着云边端协同网络中计算场景的不断增多和任务种类的多样化,面向任务的云边端协同调度可以更好地适应各种任务类型和应用场景,提高云边端系统的灵活性和适应性。此外,需要根据每个算力节点的实际情况动态地分配任务,并确保任务队列中的负载均衡,以避免出现过度负载的情况。因此,在云边端协同任务调度中,需要引入负载均衡机制以便于更好地平衡每个节点的负载,避免负载过高或过低的情况发生。

2、传统的任务调度算法通常基于静态规则或贪心策略,这些算法缺乏动态调整和适应性,无法适应云边端复杂的任务环境和网络拓扑。另一方面,这些算法也很难满足实时性和效率性的要求,特别是当任务规模和复杂性不断增加时,这些算法的性能将会显著下降。

3、目前现有的基于单智能体强化学习的任务调度将所有任务的整体看成一个智能体,智能体将所有任务的当前状态集和环境的全局状态作为状态输入,将所有任务的下一个预定动作集作为输出。然而,单个智能体难以获得全局信息,且需要稳定的环境,无法支撑云边端复杂场景中大规模任务调度需求。

技术实现思路

1、本发明要解决的技术问题是:提供一种基于云边端协同的任务负载均衡调度方法。

2、本发明解决上述技术问题所采用的技术方案是:一种基于云边端协同的任务负载均衡调度方法,包括以下步骤:

3、s1、在云边端分布式算力环境中,由终端发起面向整个云边端的任务调度请求;

4、s2、终端将所需调度的任务传输到负责该终端的边缘基站,所述边缘基站周边设置多个边缘服务器;

5、s3、云边端中的服务器包括云端服务器、多个边缘服务器,云边端中的每个服务器作为每个智能体,每个智能体收集所在域任务所需时延与资源需求;

6、每个智能体观测所在域的资源使用情况,并与其他智能体进行通信,以制定任务调度策略;在制定调度策略的过程中,每个智能体根据上一个周期收到的奖励信号进行学习更新,其目标是最小化负载标准差;

7、如果智能体实现了好的负载均衡效果则会获得正的奖励信号;相反,则会获得负的奖励信号;

8、s4、根据最终完成的智能体的任务调度策略指定云边端中的某个服务器,将任务传输到指定的云边端中的服务器中进行处理,处理好后将返回结果返回到终端。

9、优选的,所述步骤s3中,采用部分可观测马尔可夫决策模型对每个智能体的观测和动作进行建模,使得每个智能体得到优化的任务调度策略。

10、优选的,所述步骤s3中,部分可观测马尔可夫决策模型中的任务调度状态、任务调度策略和奖励函数定义如下:

11、(1)任务调度状态

12、任务调度状态包括算力节点状态和等待调度的任务状态;

13、(2)任务调度策略

14、在部分可观测马尔可夫决策模型中,智能体基于当前可观测信息和内部状态制定任务调度策略;

15、(3)奖励函数

16、奖励函数用于评估每个调度决策的质量,被设置为优化任务调度的目标;第i个智能体的奖励函数表示如下:

17、

18、其中,s是当前状态,ai是当前决策,rt+1是在时间步t+1获得的即时奖励,γ是介于0和1之间的折扣因子;

19、奖励函数包括所有智能体的贡献,奖励函数为如下形式:

20、优选的,所述步骤s3中,为每个智能体引入一个通信模块,该通信模块使用注意力机制算法来选择从其他智能体接收的信息,并将自己的信息发送给其他智能体;

21、注意力机制算法的输入为当前智能体的观察值和其他智能体的通信向量,输出为当前智能体应关注的其他智能体的通信向量。

22、优选的,所述通信模块的引入方法具体为:假设有n个智能体,每个智能体i的观察值表示为动作空间为ai;每个智能体还维护一个通信向量用于存储其他智能体的信息;

23、将每个智能体的观察值和通信向量连接起来,得到一个维度为dobs+dcomm的向量vi=[oi,mi];通过一个全连接层将vi投影到一个维度为datt的向量hi=wattvi;计算当前智能体与其他智能体的相似度分数,得到一个注意力分布其中,a(·)表示一个函数,用于计算当前智能体和其他智能体之间的相似度,使用一个mlp来实现函数a(·);

24、将其他智能体的通信向量和当前智能体的注意力分数加权平均,得到当前智能体的通信表示其中,wcomm是一个权重矩阵,用于将其他智能体的通信向量映射到当前智能体的通信表示空间。

25、优选的,注意力机制算法的训练过程如下:

26、s11、初始化网络:

27、首先,为每个智能体初始化一个演员网络和一个评论员网络;

28、s12、数据收集:

29、每个智能体与环境进行交互,智能体执行一系列动作并观察环境返回的奖励和状态;收集交互过程产生的经验数据用于训练;

30、s13、演员策略更新:

31、对于每个智能体,基于当前状态使用演员网络生成动作概率分布,使用注意力机制,将其他智能体的状态信息聚合成一个注意力加权的向量,将注意力加权的向量与本智能体的状态特征拼接,输入到演员网络中,生成动作概率,根据生成的动作概率,选择一个动作执行;

32、s14、评论员价值估计:

33、对于每个智能体,使用评论员网络评估当前状态的价值函数估计,即状态值;

34、s15、计算回报与更新:

35、智能体与环境交互后,获得实际的奖励,基于奖励,计算每个智能体的回报,即累积奖励,计算优势函数,即回报与状态价值之差,用于评估执行动作的好坏;

36、s16、更新网络参数:

37、使用经验数据进行网络参数的更新;对演员网络使用策略梯度方法通过最大化预期奖励来更新参数;对评论员网络使用均方误差损失来更新参数以减小实际回报与预测价值之间的差异;

38、s17、重复训练步骤:

39、重复上述步骤s12-s16,得到优化的智能体的演员策略和评论员价值估计。

40、本发明的有益效果是:本发明的基于云边端协同的任务负载均衡调度方法中,每个智能体观测所在域的资源使用情况,并与其他智能体进行通信,以制定任务调度策略;在制定调度策略的过程中,每个智能体根据上一个周期收到的奖励信号进行学习更新,其目标是最小化负载标准差;如果智能体实现了好的负载均衡效果则会获得正的奖励信号;相反,则会获得负的奖励信号;根据最终完成的智能体的任务调度策略指定云边端中的某个服务器将任务传输到指定的云边端中的服务器中进行处理;针对包含多个任务和多个云边端设备的复杂环境本发明能够实现较好的负载均衡效果,可以很好地应对云边端分布式算力环境中的任务调度问题。

技术特征:

1.一种基于云边端协同的任务负载均衡调度方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于云边端协同的任务负载均衡调度方法,其特征在于:所述步骤s3中,采用部分可观测马尔可夫决策模型对每个智能体的观测和动作进行建模,使得每个智能体得到优化的任务调度策略。

3.根据权利要求2所述的一种基于云边端协同的任务负载均衡调度方法,其特征在于:所述步骤s3中,部分可观测马尔可夫决策模型中的任务调度状态、任务调度策略和奖励函数定义如下:

4.根据权利要求1所述的一种基于云边端协同的任务负载均衡调度方法,其特征在于:所述步骤s3中,为每个智能体引入一个通信模块,该通信模块使用注意力机制算法来选择从其他智能体接收的信息,并将自己的信息发送给其他智能体;

5.根据权利要求4所述的一种基于云边端协同的任务负载均衡调度方法,其特征在于:所述通信模块的引入方法具体为:假设有n个智能体,每个智能体i的观察值表示为动作空间为ai;每个智能体还维护一个通信向量用于存储其他智能体的信息;

6.根据权利要求4所述的一种基于云边端协同的任务负载均衡调度方法,其特征在于:

技术总结本发明涉及一种基于云边端协同的任务负载均衡调度方法,包括以下步骤:S1、由终端发起任务调度请求;S2、任务传输到负责该终端的边缘基站,边缘基站周边设置多个边缘服务器;S3、每个智能体收集所在域任务所需时延与资源需求;每个智能体观测所在域的资源使用情况,并与其他智能体进行通信,以制定任务调度策略;在制定调度策略的过程中,每个智能体根据上一个周期收到的奖励信号进行学习更新,其目标是最小化负载标准差;S4、根据最终完成的智能体的任务调度策略指定云边端中的某个服务器,将任务传输到指定的云边端中的服务器中进行处理。针对包含多个任务和多个云边端设备的复杂环境本发明能够实现较好的负载均衡效果。技术研发人员:余杰,李琢,刘晓东,彭龙,李汉华,李文杰,吴柔,张梦琳,甘之怡受保护的技术使用者:中国人民解放军国防科技大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194329.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。