技术新讯 > 电子通信装置的制造及其应用技术 > 基于多周期CSQF机制和GDRL的路由调度方法 > 正文

基于多周期CSQF机制和GDRL的路由调度方法

国知局
2024-08-02 12:45:31

本发明涉及路由调度，尤其涉及基于多周期csqf机制和gdrl的路由调度方法。

背景技术：

1、循环排队和转发(cqf)作为一种蠕动成形器被提出，将端口上的两个队列循环交替地打开和关闭。它将时间划分为长度相同的周期t，前一个节点在周期c发送的数据包必须在同一周期内被后续节点收到，然后在c+1周期发送出去。尽管cqf可以很好的控制每一跳的延迟(最多两个周期)，但是这种机制的可扩展性不强，仅适用于小型网络，并且它要求节点之间完全同步。

2、为了提高灵活性和可扩展性，指定周期队列转发(csqf)机制被设计为ietf dn工作组的新兴标准草案，作为cqf机制的演进。csqf机制提出使用更多的队列来延迟数据包，并指定对应的周期来传输数据包。在支持csqf机制的路由器内部，每个输出端口将配备n个队列，在n个队列中有nd(nd≤n)队列保留用于时间关键流量，而剩余的非关键(nc)队列用于尽力而为(be)流量。这n个队列以循环方式传输数据包，即在每个周期中，只有一个队列处于活动状态，用于将数据包发送到物理链路，其他(n-1)个不活动队列被关闭，并将数据包排入队列以供将来传输，需要注意的是，每个非活动队列中入队的数据包数量与每个队列的缓冲区大小有关，入队不当会导致丢包。nd时间敏感队列通过资源预留专用于时间关键流。将数据包分配到特定队列实际上决定了它们的传输周期，并且数据包最多可以延迟(n-1)个周期。

3、已有的基于确定性网络的指定周期队列转发(csqf)下研究大多研究单链路速率下的路由和调度，即各节点的周期长度相同。在实际的工业场景中，多链路速率也是比较常见的，在多链路速率构成的网络中，为了兼容低速链路，需要将高速链路周期设置和低速链路相同，造成高速链路的资源浪费，流的起点到终点的延迟也是极高的。

4、同时，现有一般通过深度强化学习的方法，解决关于确定性网络(dn)的路由问题，但采用这种方法不能充分地利用网络之间的拓扑信息进行融合特征提取(主要原因是拓扑信息为不规则图结构信息，而深度强化学习使用的全连接神经网络用于欧式数据)。

技术实现思路

1、为解决上述问题，本发明提供一种基于多周期csqf机制和gdrl的路由调度方法，使用gcn网络提取网络之间的拓扑信息，相比于只使用强化学习的方法能够实现更多的流调度，并且在复杂网络拓扑下的性能同样稳定，而多周期csqf可以降低流的起点终点延迟。

2、为实现上述目的，本发明提供了基于多周期csqf机制和gdrl的路由调度方法，包括以下步骤：

3、s1、初始化设定多周期csqf的周期索引检测机制、队列映射和队列映射约束；

4、s2、构建dfrlls模型；

5、s3、基于gdrl优化dfrlls模型；

6、s4、离线训练gdrl模型的学习策略；

7、s5、基于训练后的gdrl模型在线做出决策。

8、本发明具有以下有益效果：

9、1、使用gcn网络提取网络之间的拓扑信息，相比于只使用强化学习的方法能够实现更多的流调度，并且在复杂网络拓扑下的性能同样稳定；

10、2、使用多周期的csqf机制相比于相同周期的csqf在多链路速率网络中能够实现更低的流的起点到终点延迟。

11、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.基于多周期csqf机制和gdrl的路由调度方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：在步骤s1所述的周期索引检测机制中，设定检测周期长度为6th，th为检测短周期，同时检测短周期th和长周期tl，并使用短周期th作为检测粒度，输出周期索引tid；

3.根据权利要求2所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：在步骤s1中，对多周期csqf进行扩展，且扩展条件为：

4.根据权利要求1所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：步骤s2具体包括以下步骤：

5.根据权利要求4所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：在步骤s3中对构建dfrlls模型强化学习建模，构建mdp模型，mdp模型包括状态空间行动空间和奖励空间

6.根据权利要求5所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：步骤s3具体包括以下步骤：

7.根据权利要求6所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：步骤s32具体包括步骤：

8.根据权利要求7所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：在步骤s321中，基于接收节点队列数量选择偏移量：

9.根据权利要求1所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：在步骤s4中，利用双通道体验重放基于td误差训练gdrl模型的q网络，并利用经验回放机制存储训练过程中的历史经验：

10.根据权利要求4所述的基于多周期csqf机制和gdrl的路由调度方法，其特征在于：在步骤s225中，dn流定义为源节点到目的节点的周期性单播流量，将dn流的集合表示为且将dn流定义为一个元组(srck、dstk、periodk、delayk、sizek)，其中，srck和dstk分别表示流fk的源节点和目的节点；periodk表示流fk的周期，即源节点每个periodk周期发送的数据包；sizek表示流fk的大小；delayk表示流最大流的起点到终点的时延组成；

技术总结本发明公开了基于多周期CSQF机制和GDRL的路由调度方法，属于路由调度领域，包括以下步骤：S1、初始化设定多周期CSQF的周期索引检测机制、队列映射和队列映射约束；S2、构建DFRLLS模型；S3、基于GDRL网络优化DFRLLS模型；S4、离线训练GDRL模型的学习策略；S5、基于训练后的GDRL模型在线做出决策。本发明采用上述基于多周期CSQF机制和GDRL的路由调度方法，使用GCN网络提取网络之间的拓扑信息，相比于只使用强化学习的方法能够实现更多的流调度，并且在复杂网络拓扑下的性能同样稳定，而多周期CSQF机制相比于CSQF机制可以实现降低流起点到终点延迟。技术研发人员：徐伟强,黄烨林受保护的技术使用者：浙江理工大学技术研发日：技术公布日：2024/8/1