无损网络拥塞控制方法、装置、设备、介质及交换机系统与流程
- 国知局
- 2024-08-02 14:25:45
本发明涉及数据中心通信,特别是涉及无损网络拥塞控制方法、装置、设备、介质及交换机系统。
背景技术:
1、数据中心量化拥塞通知(data center quantized congestion notification,简称dcqcn)是一种数据中心网络中的拥塞控制协议。它旨在解决传统基于优先级的流量控制(priority-based flow control,简称pfc)所面临的不公平和队头阻塞问题,通过端到端的拥塞通知机制来提升网络性能,实现无损网络中的低延迟和高吞吐。dcqcn通过在数据包中设置拥塞通知标记来工作。当网络中的某个节点检测到拥塞时,它会在转发的数据包中设置一个拥塞通知位。接收到这些拥塞通知的设备随后可以减少它们的发送速率,从而减轻拥塞。这种方法允许网络更智能地响应拥塞,而不是简单地停止发送数据,这在传统的基于流控的无损数据中心网络中是常见的做法。
2、dcqcn中的显式拥塞通知(explicit congestion notification,ecn)所采用的标记参数较多,本领域技术采用深度强化学习的方式对数据中心网络环境进行状态感知,以实现最优于当下环境状况的决定。
3、然而,由于数据中心网络环境的复杂多变,虽然采用深度强化学习模型能够对数据中心内交换机的显式拥塞通知配置参数进行智能抉择,却无法取得兼顾大吞吐量和低延时的效果。
技术实现思路
1、本发明的目的是提供无损网络拥塞控制方法、装置、设备、介质及交换机系统,以实现数据中心报文转发时兼顾大吞吐量和低延时的效果。
2、为解决上述技术问题,本发明提供一种无损网络拥塞控制方法,包括:
3、获取拥塞控制模型、候选显式拥塞通知标记参数和拥塞控制奖励函数;
4、采集目标交换机的拥塞控制样本以构建训练数据集;
5、利用所述训练数据集对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型;
6、基于训练后的所述拥塞控制模型执行所述目标交换机的无损网络拥塞控制任务;
7、其中,所述拥塞控制奖励函数为吞吐参数、拥塞参数和乘积项函数的加权和值;所述乘积项函数为吞吐参数与拥塞参数的乘积的函数,且所述乘积项函数与所述吞吐参数与拥塞参数的乘积成正相关;所述拥塞控制样本包括当前时刻的状态参数、利用所述拥塞控制模型根据当前时刻的状态参数选取的显式拥塞通知标记参数、下一时刻的状态参数、将下一时刻的状态参数代入所述拥塞控制奖励函数计算得到的环境奖励参数;状态参数的类型包括所述目标交换机的交换机端口的吞吐参数和所述交换机端口的拥塞参数。
8、一方面,所述拥塞控制奖励函数可以通过下式表示:
9、;
10、其中, r为环境奖励参数, t为吞吐参数,为吞吐参数的权重, q为拥塞参数,为拥塞参数的权重,为所述乘积项函数,为乘积项函数的权重。
11、另一方面,所述乘积项函数可以通过下式表示:
12、;
13、其中, h>0。
14、另一方面,所述拥塞控制奖励函数中的吞吐参数为归一化的交换机端口发包速率,所述拥塞控制奖励函数中的拥塞参数为归一化后的交换机端口拥塞队列长度。
15、另一方面,所述归一化的交换机端口发包速率通过下式计算得到:
16、;
17、其中, t为所述归一化的交换机端口发包速率,为交换机端口发包速率,为所述交换机端口的带宽。
18、另一方面,所述归一化的交换机端口发包速率通过下式计算得到:
19、;
20、其中, t为所述归一化的交换机端口发包速率,为对所述交换机端口发包速率的单位观察时间,为在所述单位观察时间的起始时刻的交换机端口发包速率,为在所述单位观察时间的结束时刻的交换机端口发包速率,为所述交换机端口的带宽。
21、另一方面,所述归一化后的交换机端口拥塞队列长度通过下式计算得到:
22、;
23、其中,为所述归一化后的交换机端口拥塞队列长度,为交换机端口拥塞队列长度,为交换机端口拥塞队列长度的归一化函数, n为交换机端口拥塞队列长度所属实际阶数,表示时的最小 m值的索引, m为交换机端口拥塞队列长度的归一化分阶数,所述归一化分阶数共 m阶,为交换机端口拥塞队列长度第 m阶的分界值,为常系数,为千比特。
24、另一方面,在所述拥塞控制奖励函数中,吞吐参数的权重及拥塞参数的权重且均小于所述乘积项函数的权重。
25、另一方面,所述采集目标交换机的拥塞控制样本以构建训练数据集,包括:
26、以一台所述目标交换机的一个所述交换机端口为一个智能体,采集所述目标交换机所在的目标交换机系统中所有所述智能体的所述拥塞控制样本,得到一组所述拥塞控制样本;
27、重复采集多组所述拥塞控制样本,得到所述训练数据集。
28、另一方面,所述采集目标交换机的拥塞控制样本以构建训练数据集,包括:
29、获取所述交换机端口当前时刻的吞吐参数、当前时刻的拥塞参数以及当前时刻的显式拥塞通知标记参数;其中,当前时刻的吞吐参数为根据所述交换机端口当前时刻的交换机端口发包速率进行归一化计算后的结果,当前时刻的拥塞参数为根据所述交换机端口当前时刻的交换机端口拥塞队列长度进行归一化计算后的结果,当前时刻的显式拥塞通知标记参数为自所述候选显式拥塞通知标记参数中随机选取的结果;
30、利用当前时刻的显式拥塞通知标记参数配置所述交换机端口后,采集所述交换机端口下一时刻的吞吐参数、下一时刻的拥塞参数以及下一时刻的显式拥塞通知标记参数;其中,下一时刻的吞吐参数为根据所述交换机端口下一时刻的交换机端口发包速率进行归一化计算后的结果,下一时刻的拥塞参数为根据所述交换机端口下一时刻的交换机端口拥塞队列长度进行归一化计算后的结果,下一时刻的显式拥塞通知标记参数为自所述候选显式拥塞通知标记参数中随机选取的结果;
31、将下一时刻的吞吐参数和下一时刻的拥塞参数代入所述拥塞控制奖励函数,计算得到环境奖励参数;
32、以一台所述目标交换机的一个所述交换机端口为一个智能体,利用上述步骤采集所述目标交换机所在的目标交换机系统中所有所述智能体的所述拥塞控制样本,堆叠为一组所述拥塞控制样本;
33、重复采集多组所述拥塞控制样本,得到所述训练数据集。
34、另一方面,所述拥塞控制模型为深度q学习网络;
35、利用所述训练数据集对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型,包括:
36、采用双深度q学习网络的训练方式对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型。
37、另一方面,所述采用双深度q学习网络的训练方式对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型,包括:
38、初始化策略神经网络和目标神经网络;
39、自所述训练数据集中随机采样得到批量训练数据以训练神经网络;
40、利用下式以通过所述策略神经网络选取动作和值计算得到当前时刻的输入特征下的最优价值:
41、;
42、其中,为当前时刻 t的输入特征,为当前时刻 t的输入特征下的最优动作,为所述策略神经网络;
43、利用下式以通过所述目标神经网络选择下一时刻的输入特征下的最优动作,通过所述策略神经网络计算下一时刻的输入特征下的最优价值:
44、;
45、其中,为采样时间间隔,为下一时刻的输入特征,为下一时刻的输入特征下的最优动作,表示所述策略神经网络输出最大值时的动作的索引,为所述目标神经网络;
46、通过下式计算得到当前的所述批量训练数据的平均损失值:
47、;
48、其中,为环境奖励参数,为折扣系数,为均方根误差函数;
49、将所述平均损失值反向回传,并采用自适应矩估计优化器更新所述策略神经网络的权重;
50、采用下式以每更新s次所述策略神经网络,更新一次所述目标神经网络:
51、;
52、其中,为平均系数;
53、若达到迭代结束条件,则以所述策略神经网络为训练后的所述拥塞控制模型;若未达到迭代结束条件,则返回自所述训练数据集中随机采样得到批量训练数据以训练神经网络。
54、另一方面,所述采集目标交换机的拥塞控制样本以构建训练数据集,包括:
55、根据所述目标交换机所在的目标交换机系统搭建交换机仿真系统,自所述交换机仿真系统采集得到离线训练数据集。
56、另一方面,所述采集目标交换机的拥塞控制样本以构建训练数据集,包括:
57、将所述拥塞控制模型部署于所述目标交换机;
58、在利用所述拥塞控制模型执行所述交换机端口的拥塞控制任务时,自所述目标交换机采集所述拥塞控制样本;
59、利用所述训练数据集对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型,包括:
60、利用在所述目标交换机采集到的所述拥塞控制样本对所述拥塞控制模型进行迭代训练,若达到迭代结束条件,则得到训练后的所述拥塞控制模型;若未达到所述迭代结束条件,则返回在利用所述拥塞控制模型执行所述交换机端口的拥塞控制任务时,自所述目标交换机采集所述拥塞控制样本。
61、另一方面,所述拥塞控制模型为在交换机仿真系统中预训练的拥塞控制模型;
62、所述采集目标交换机的拥塞控制样本以构建训练数据集,包括:
63、将所述预训练的拥塞控制模型部署于所述目标交换机;
64、在利用所述预训练的拥塞控制模型执行所述交换机端口的拥塞控制任务时,自所述目标交换机采集所述拥塞控制样本;
65、利用所述训练数据集对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型,包括:
66、利用在所述目标交换机采集到的所述拥塞控制样本对所述预训练的拥塞控制模型进行模型参数微调,若达到迭代结束条件,则得到训练后的所述拥塞控制模型;若未达到所述迭代结束条件,则返回在利用所述预训练的拥塞控制模型执行所述交换机端口的拥塞控制任务时,自所述目标交换机采集所述拥塞控制样本。
67、另一方面,所述基于训练后的所述拥塞控制模型执行所述目标交换机的无损网络拥塞控制任务,包括:
68、若所述目标交换机所在的目标交换机网络为网络拓扑结构和流量模式场景均满足稳定性条件,则基于在所述目标交换机的所述交换机端口训练后的所述拥塞控制模型选取显式拥塞通知标记参数以执行所述无损网络拥塞控制任务;
69、若所述目标交换机网络的网络拓扑结构和所述目标交换机网络的流量模式场景中至少一项不满足稳定性条件,则基于所述目标交换机的所述交换机端口训练后的所述拥塞控制模型以及所述目标交换机的上游交换机的自身状态信息选取显式拥塞通知标记参数以执行所述无损网络拥塞控制任务。
70、为解决上述技术问题,本发明还提供一种交换机系统,包括多台目标交换机;
71、其中,所述目标交换机的交换机端口部署有拥塞控制模型、候选显式拥塞通知标记参数和拥塞控制奖励函数;所述目标交换机用于在执行所述交换机端口的拥塞控制任务时采集所述拥塞控制样本以构建训练数据集,利用所述训练数据集对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型,基于训练后的所述拥塞控制模型执行无损网络拥塞控制任务;
72、其中,所述拥塞控制奖励函数为吞吐参数、拥塞参数和乘积项函数的加权和值;所述乘积项函数为吞吐参数与拥塞参数的乘积的函数,且所述乘积项函数与所述吞吐参数与拥塞参数的乘积成正相关;所述拥塞控制样本包括当前时刻的状态参数、利用所述拥塞控制模型根据当前时刻的状态参数选取的显式拥塞通知标记参数、下一时刻的状态参数、将下一时刻的状态参数代入所述拥塞控制奖励函数计算得到的环境奖励参数;状态参数的类型包括所述目标交换机的交换机端口的吞吐参数和所述交换机端口的拥塞参数。
73、为解决上述技术问题,本发明还提供一种无损网络拥塞控制装置,包括:
74、获取单元,用于获取拥塞控制模型、候选显式拥塞通知标记参数和拥塞控制奖励函数;
75、采样单元,用于采集目标交换机的拥塞控制样本以构建训练数据集;
76、模型更新单元,用于利用所述训练数据集对所述拥塞控制模型进行迭代训练,得到训练后的所述拥塞控制模型;
77、控制单元,用于基于训练后的所述拥塞控制模型执行所述目标交换机的无损网络拥塞控制任务;
78、其中,所述拥塞控制奖励函数为吞吐参数、拥塞参数和乘积项函数的加权和值;所述乘积项函数为吞吐参数与拥塞参数的乘积的函数,且所述乘积项函数与所述吞吐参数与拥塞参数的乘积成正相关;所述拥塞控制样本包括当前时刻的状态参数、利用所述拥塞控制模型根据当前时刻的状态参数选取的显式拥塞通知标记参数、下一时刻的状态参数、将下一时刻的状态参数代入所述拥塞控制奖励函数计算得到的环境奖励参数;状态参数的类型包括所述目标交换机的交换机端口的吞吐参数和所述交换机端口的拥塞参数。
79、为解决上述技术问题,本发明还提供一种无损网络拥塞控制设备,包括:
80、存储器,用于存储计算机程序;
81、处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述无损网络拥塞控制方法的步骤。
82、为解决上述技术问题,本发明还提供一种非易失性存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述无损网络拥塞控制方法的步骤。
83、为解决上述技术问题,本发明还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任意一项所述无损网络拥塞控制方法的步骤。
84、本发明所提供的无损网络拥塞控制方法,有益效果在于训练用于执行目标交换机的无损网络拥塞控制任务的拥塞控制模型时,采用吞吐参数、拥塞参数和乘积项函数的加权和值的拥塞控制奖励函数,解决以往训练拥塞控制模型时采用的奖励函数仅为吞吐参数和拥塞参数的加权和值导致难以实现兼顾大吞吐量和低延时的调优的问题,利用增加与吞吐参数、拥塞参数的乘积成正相关的乘积项函数的拥塞控制奖励函数控制拥塞控制模型的优化方向,不仅有利于模型更快速收敛,更能够兼顾数据中心对于大吞吐量和低延时的流量需求,利用由此训练得到的拥塞控制模型执行目标交换机的无损网络拥塞控制任务,在复杂数据中心网络环境中,具有更强的鲁棒性和稳定性。
85、本发明还提供一种无损网络拥塞控制装置、设备、非易失性存储介质、计算机程序产品及交换机系统,具有上述有益效果,在此不再赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240801/242741.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。