技术新讯 > 电子通信装置的制造及其应用技术 > 一种SDN路由方法、装置及SDN控制器与流程  >  正文

一种SDN路由方法、装置及SDN控制器与流程

  • 国知局
  • 2024-08-02 13:49:12

本技术涉及网络通信,尤其是涉及一种sdn路由方法、装置及sdn控制器。

背景技术:

1、现有技术中,通常通过传统的增强学习、或者结合深度增强学习和其他技术,如注意力机制或图神经网络等,来实现sdn路由推理,然而,传统的增强学习在面对复杂的高维网络状态和动作空间时难以有效地表示和提取特征,结合深度增强学习和其他技术,需要大量样本对模型学习,模型训练时间长和收敛速度慢,限制了其实用性。

2、因此,基于深度增强学习的路由方法在复杂网络环境下如何快速地做出路由决策,还未提出有效的解决方案。

技术实现思路

1、有鉴于此,本技术提供了一种sdn路由方法、装置及sdn控制器,该方法通过将具有生物似真性的脉冲神经网络与深度增强学习自主决策能力的优势深度融合,从而提高了sdn网络路由中的数据处理速度,降低了功耗,提高了sdn网络路由的整体性能。

2、第一方面,本技术实施例提供一种sdn路由方法,应用于sdn控制器,包括:

3、获取当前时刻的sdn网络中各链路的信息,确定当前时刻的状态空间;

4、利用脉冲时延编码器对所述当前时刻的状态空间进行处理,得到当前时刻的脉冲时延编码;

5、利用脉冲神经网络对当前时刻的脉冲时延编码和上一时刻的脉冲编码进行处理,得到当前时刻的脉冲编码;

6、利用解码器对所述当前时刻的脉冲编码进行处理,得到一个均值;

7、利用深度神经网络对当前时刻的状态空间进行处理,得到一个标准差;

8、基于所述均值和所述标准差确定随机动作分布,对所述随机动作分布进行采样得到当前时刻的动作,所述当前时刻的动作包括所述链路的多条路径路由策略。

9、在一种可能的实现中,所述链路的信息包括:带宽、时延、丢包率、吞吐量和利用率;

10、利用脉冲时延编码器对所述当前时刻的状态空间进行处理,得到当前时刻的脉冲时延编码;包括:

11、将当前时刻的状态空间st表示为st=(s1,s2,s3,s4,s5),其中,s1表示带宽,s2表示时延,s3表示丢包率,s4表示吞吐量,s5表示利用率;t表示当前时刻;

12、确定所述当前时刻的状态空间st的第i个分量si的脉冲时延编码值di:

13、

14、其中,twin为脉冲编码的时间窗长,1≤i≤5;ti为所有状态空间的第i个分量的最大值;

15、所述状态空间st的脉冲时延编码o(t)为:o(t)=(d1,d2,d3,d4,d5)。

16、在一种可能的实现中,利用脉冲神经网络对当前时刻的脉冲时延编码和上一时刻的脉冲编码进行处理,得到当前时刻的脉冲编码;包括:

17、计算所述脉冲神经网络的第i个突触后神经元输出的电流值ci(t):

18、

19、其中,wij是脉冲神经网络中第j个突触前神经元与第i个突触后神经元的连接权重;oi(t)是脉冲时延编码o(t)的第i个分量;

20、计算第i个突触后神经元输出的膜电压vi(t):

21、

22、其中,vreset为静息电位,r为电阻,为上一时刻的脉冲编码的第i个分量,vi(t-1)为上一时刻第i个突触后神经元输出的膜电压;

23、脉冲编码的第i个分量为:

24、

25、其中,vth为点火阈值,sign(·)为符号函数。

26、在一种可能的实现中,所述方法还包括:

27、确定所述当前时刻的状态空间st的奖励rt:

28、rt=rtp+rtd

29、其中,rtp为对应链路的吞吐量奖励:rtp=ρ1×s4;rtd为对应链路的时延惩罚:rtd=ρ2×s2,ρ1和ρ2均为调节因子;

30、获取下一时刻的sdn网络中各链路的信息,基于下一时刻的sdn网络中各链路的信息,确定下一时刻的状态空间st+1;

31、基于当前时刻的状态空间st、当前时刻的动作at、奖励rt和下一时刻的状态空间st+1,确定一个训练样本。

32、在一种可能的实现中,当所述训练样本的数量大于预设的数量,所述方法还包括:

33、获取一个训练样本,所述训练样本包括:第k帧的状态空间sk、第k帧的动作向量ak、奖励rk和第k+1帧的状态空间sk+1;

34、利用第一评论家网络对所述训练样本进行处理,得到第k帧的第一价值估计值;

35、利用第二评论家网络对所述训练样本进行处理,得到第k帧的第二价值估计值;

36、利用第一目标评论家网络对所述训练样本进行处理,得到第k+1帧的第一价值目标值;

37、利用第二目标评论家网络对所述训练样本进行处理,得到第k+1帧的第二价值目标值;

38、基于第k帧的第一价值估计值、第k帧的第二价值估计值、第k+1帧的第一价值目标值和第k+1帧的第二价值目标值,更新所述第一评论家网络、第二评论家网络、第一目标评论家网络、第二目标评论家网络和脉冲演员网络的参数,所述脉冲演员网络包括依次连接的:脉冲时延编码器、脉冲神经网络、解码器和深度神经网络。

39、在一种可能的实现中,基于第k帧的第一价值估计值、第k帧的第二价值估计值、第k+1帧的第一价值目标值和第k+1帧的第二价值目标值,更新所述第一评论家网络、第二评论家网络、第一目标评论家网络、第二目标评论家网络和脉冲演员网络的参数,包括:

40、基于第k+1帧的第一价值目标值和第k+1帧的第二价值目标值,确定第k帧的价值目标值q(sk,ak);

41、利用第k帧的第一价值估计值和第k帧的价值目标值,确定第一梯度值,利用所述第一梯度值更新所述第一评论家网络参数ω(1);

42、利用第k帧的第二价值估计值和第k帧的价值目标值,确定第二梯度值,利用第二梯度值更新所述第二评论家网络参数ω(2);

43、确定第三梯度值,利用第三梯度值更新当前的脉冲演员网络参数θ,其中,第三梯度值为:

44、αlogπ(a′k|sk;θ)-min(q1(sk,a′k|ω(1)),q2(sk,a′k|ω(2)))

45、其中,a′k为利用当前的脉冲演员网络预测的第k帧采用的动作,q1(sk,a′k|ω(1))为利用当前的第一评论家网络得到的第k帧采用动作a′k的第一价值估计值,q2(sk,a′k|ω(2))为利用当前的第二评论家网络得到的第k帧采用动作a′k的第二价值估计值;π(a′k|sk;θ)为第k帧采用动作a′k的概率;min(q1(sk,a′k|ω(1)),q2(sk,a′k|ω(2)))为取q1(sk,a′k|ω(1))和q2(sk,a′k|ω(2))的最小值;

46、确定第四梯度值,利用第四梯度值更新待学习的参数α,其中,第四梯度值为:

47、

48、其中,为第k帧的动作空间的维度;

49、对更新后的第一评论家网络参数和未更新的第一目标评论家网络参数进行加权平均,得到更新后的第一目标评论家网络参数;

50、对更新后的第二评论家网络参数和未更新的第二目标评论家网络参数进行加权平均,得到更新后的第二目标评论家网络参数。

51、在一种可能的实现中,基于第k+1帧的第一价值目标值和第k+1帧的第二价值目标值,确定第k帧的价值目标值q(sk,ak),包括:

52、第k帧的价值目标值q(sk,ak)为:

53、

54、其中,为第k+1帧的第一价值目标值,为未更新的第一目标评论家网络参数;为第k+1帧的第二价值目标值,为未更新的第二目标评论家网络参数,α为待学习的参数,ak+1为利用当前的脉冲演员网络预测的第k+1帧采用的动作;π(ak+1|sk+1;θ)为第k+1帧采用动作ak+1的概率,θ为脉冲演员网络参数;γ为一个常数;为取和的最小值。

55、第二方面,本技术实施例提供一种sdn路由装置,应用于sdn控制器,包括:

56、确定单元,用于获取当前时刻的sdn网络中各链路的信息,确定当前时刻的状态空间;

57、第一处理单元,用于利用脉冲时延编码器对所述当前时刻的状态空间进行处理,得到当前时刻的脉冲时延编码;

58、第二处理单元,用于利用脉冲神经网络对当前时刻的脉冲时延编码和上一时刻的脉冲编码进行处理,得到当前时刻的脉冲编码;

59、第三处理单元,用于利用解码器对所述当前时刻的脉冲编码进行处理,得到一个均值;

60、第四处理单元,用于利用深度神经网络对当前时刻的状态空间进行处理,得到一个标准差;

61、路由决策单元,用于基于所述均值和所述标准差确定随机动作分布,对所述随机动作分布进行采样得到当前时刻的动作,所述当前时刻的动作包括所述链路的多条路径路由策略。

62、第三方面,本技术实施例提供一种sdn控制器,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术实施例的方法。

63、第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现本技术实施例的方法。

64、本技术的路由方法具有信息处理速度快、功耗低以及性能高的优点。

本文地址:https://www.jishuxx.com/zhuanli/20240801/240772.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。