技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于流量状态预测的队列智能管理方法 > 正文

一种基于流量状态预测的队列智能管理方法

国知局
2024-10-09 16:35:57

本发明涉及信息工程领域，具体涉及一种基于流量状态预测的队列智能管理方法。

背景技术：

1、随着信息技术的发展，接入网络的终端数量倍增，网络愈加异构和复杂，网络流量呈现瞬时涌现的特征。如何在复杂网络环境中优化队列管理算法，以解决参数设置过于敏感的问题，并适应网络环境的不断变化，减少拥塞，提高算法泛化性，同时满足用户对低网络延迟和高吞吐量的要求，是一个亟待解决的问题。

2、现有的队列管理算法主要分为基于队列尺度、基于链路负载和基于混合尺度三种类型。其中，基于队列尺度的队列管理算法以red算法为基础，对队列长度进行测量，但存在稳定性差、对网络参数设置敏感、参数调节缺乏理论依据等缺陷，导致无法适应网络状态时变的问题；基于链路负载尺度的队列管理算法以blue算法和avq算法为基础，减少丢包率对缓存空间的需求，但当大量异质业务流量汇聚时不能很好的控制队列长度，导致队列频繁溢出；基于混合尺度的队列管理算法以模糊逻辑控制为基础，虽具有一定的网络状态时变适应性，但仍存在参数设置敏感，固定模糊控制规则过于单一，导致对异质流量的差异化服务质量需求难以保障。

3、近年来，强化学习（reinforcement learning，rl）逐渐应用于网络拥塞控制中。rl是一个通过试错来学习的方法，非常重视主体与环境之间的互动，并根据环境的反馈不断调整行动选择策略，非常适合具有显著时间变化和涌现特性的网络，然而rl的局限性在于其模型感知能力较弱，在动态网络场景下的学习能力较差。深度强化学习（deepreinforcement learning，drl）集成了深度学习（deep learning，dl）和强化学习技术，在解决复杂高维问题上表现出显著优势，为解决复杂网络问题开辟了新途径，但现有的深度强化学习方法只考虑单个或多个链路状态指标来进行决策，忽略了不同业务类型的qos需求差异；且缺少吞吐量和延迟性能之间的权衡，也没有考虑到突发流量对队列管理产生的影响。

技术实现思路

1、本发明目的：在于提供一种基于流量状态预测的队列智能管理方法，解决现有主动队列管理算法泛化能力差，需要提前配置参数，难以适应复杂网络环境中不断变化的网络状态，导致算法拥塞控制效果不佳的问题。

2、为实现以上功能，本发明设计一种基于流量状态预测的队列智能管理方法，针对网络环境中由数据包组成的队列，执行如下步骤s1-步骤s5，完成队列的管理：

3、步骤s1：针对当前时刻的网络环境，根据当前时刻的队列长度 l t，基于gru算法，经过更新门和重置门两个门控单元的计算，输出预测的下一时刻的队列长度 l t+1，完成网络流量状态预测；

4、步骤s2：以下一时刻的队列长度 l t+1、当前时刻的丢包率 r deq和队列延迟 d t，组成当前时刻的网络状态；

5、步骤s3：基于策略神经网络和目标神经网络组成智能体，智能体监测当前时刻的网络状态 s t，当队列中存在队列延迟时，智能体根据当前时刻的网络状态 s t，基于ε-greedy策略决策并输出针对数据包的动作 a t；

6、步骤s4：设置奖励函数，根据智能体所输出的动作 a t，智能体获得相应的奖励 r t，并更新网络状态 s t+1；基于网络状态 s t、动作 a t、奖励 r t、网络状态 s t+1，组成经验样本存储到经验回放池中；

7、步骤s5：当经验回放池中的经验样本数量超过预设的最小批量值，智能体从经验回放池中随机选取经验样本，对策略神经网络和目标神经网络进行训练并更新权重，完成队列的管理。

8、有益效果：相对于现有技术，本发明的优点包括：

9、本发明首先通过门控循环单元（gate recurrent unit，gru）对网络流量状态进行预测，并利用dqn模型构建了丢包策略决策模型，进一步基于吞吐量和端到端时延构建奖励函数，使得算法能够快速适应网络环境的动态变化，实现了满足业务服务质量需求的最优丢包策略。该方法在提高了算法泛化性的同时，通过对流量状态的预测进一步实现了对突发流量的合理控制。

技术特征：

1.一种基于流量状态预测的队列智能管理方法，其特征在于，针对网络环境中由数据包组成的队列，执行如下步骤s1-步骤s5，完成队列的管理：

2.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s1的具体步骤如下：

3.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s3中的ε-greedy策略如下式：

4.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s3中针对数据包的动作at包括丢弃和保留，如果智能体所决策的动作是丢弃，则，如果智能体所决策的动作是保留，则。

5.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s4中设置奖励函数的具体步骤如下：

6.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s5具体步骤如下：

7.根据权利要求6所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s5.4中的损失函数具体如下式：

8.根据权利要求7所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤s5.4中训练策略神经网络和目标神经网络时，采用xavier initializer初始化策略神经网络和目标神经网络的权重，并使用adam优化器进行训练优化。

9.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，策略神经网络和目标神经网络为多层感知器，具有两个隐藏层，每个隐藏层包含64个神经元；在每个隐藏层部署relu激活函数，激活函数的定义为，y表示进入神经元的输入向量，并在输出层应用softmax函数将输出转换为动作值函数，并根据动作值函数采用ε-greedy算法进行动作选择。

技术总结本发明公开了一种基于流量状态预测的队列智能管理方法，包括：基于GRU算法，进行网络流量状态预测；构建网络状态元组，基于策略神经网络和目标神经网络组成智能体，智能体根据当前时刻的网络状态，基于ε‑greedy策略决策并输出动作；设置奖励函数，智能体根据所采取的动作获得相应的奖励，更新网络状态，组建经验样本；智能体选取经验样本，对策略神经网络和目标神经网络进行训练并更新权重，完成队列的管理；本发明所设计的方法在提高了算法泛化性的同时，通过对网络流量状态的预测，实现了对突发流量的合理控制。技术研发人员：石怀峰,潘成胜,李昕芮,王英植,雷东兴,田文受保护的技术使用者：南京信息工程大学技术研发日：技术公布日：2024/9/26