技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于深度强化学习的战术通信网络业务成帧方法 > 正文

一种基于深度强化学习的战术通信网络业务成帧方法

国知局
2024-08-02 14:35:12

本发明涉及通信领域，特别涉及一种基于深度强化学习的战术通信网络业务成帧方法。

背景技术：

1、以武器系统解耦、要素动态重组为特征的新一代战术通信网络，业务类型包括话音、数据、图像、视频等达5种以上；链路类型包括光纤、有线、短波、超短波、区宽、散射等，达10种以上。武器系统解耦后海量数据在短时间内经过多条链路汇聚到旅基本指挥所等关键节点。异构链路数量增多，数据流量呈现自相似性，数据流量变化快，汇聚节点处流量拥塞概率增大，且数据包大小不一，影响瓶颈链路的传输效率，导致汇聚节点处更加容易拥塞，难以保障时延敏感业务的时延需求。因此需要在汇聚节点处部署帧生成算法，对于不同种类的业务使用不同的成帧算法，提高瓶颈链路的传输效率，增加吞吐量，保障时敏业务的时延需求。

2、帧生成机制通过把多个下一跳目的地址相同的数据包封装在一个数据帧中进行发送，减少了冗余信息传输的时间和退避等待的时间，也减少了大量的重复开销，显著提升了信道利用率和系统吞吐量。

3、当前，国内外在不同背景下的成帧算法方面有许多研究。在wifi网络下，有a-msdu和a-mpdu两种聚合数据包的方法。在文献an enhanced a-msdu frame aggregationscheme for 802.11 n wireless networks（saif, anwar, et al. wireless personalcommunications 66 (2012): 683-706.）中针对传统的a-msdu聚合开销过大的问题，提出了ma-msdu算法，降低聚合开销，实现单个子帧的重传控制；在文献deep reinforcementlearning-based joint frame length and rate adaption for wlan network（zhou,lihong, et al. 2023 ieee 98th vehicular technology conference. ieee, 2023.）中综合考虑成帧和物理速率自适应，通过深度强化学习，探索吞吐量最高的解，但这些方法缺少对时敏业务的时延保障。在卫星网络的背景下，主要有等时帧生成算法、高效率帧生成算法和自适应帧生成算法。等时帧生成算法指的是每隔固定时间将队列中的数据包组合成帧，高效率帧生成算法指的是当前队列中等待的数据包达到一帧的长度才会组合成帧，自适应帧生成算法指的是当前的成帧时间达到门限值或者队列中等待的数据包达到限制就会组合成帧。在文献research and simulation on high efficient frame generationmodel of aos considering packet extracting time under finite buffer（li,qingfan, et al. 2014 ieee 5th international conference on softwareengineering and service science. ieee, 2014.）中提出了有限缓存下考虑数据包提取时间的高效率帧生成模型，分析了缓冲区的溢出概率。但高效率帧生成算法强调固定帧长，无法保障成帧时延。在文献基于业务流量预测的aos自适应帧生成算法（戴昌昊,曾贵明,梁君等.计算机测量与控制,2017,25(04):176-178+196.）中提出了一种基于业务流量预测的自适应帧生成算法，该算法通过小波神经网络对自相似流量进行预测，根据预测结果自适应调整成帧时刻，提高了帧复用效率，避免帧生成时延过长的问题，但是在面对多业务流量时无法保障特殊业务的qos需求。在文献流量预测下智能寻优门限值的aos帧生成算法（田野,刘英娜,刘立士等.宇航学报,2021,42(06):790-797.）中提出一种流量预测下智能寻优门限值的aos帧生成算法，该算法使用小波神经网络对on/off模型产生的自相似流量进行预测，根据预测流量计算复用效率和平均包时延，使用人工鱼群算法对建立的综合评价函数进行智能寻优，从而得到帧生成算法的最佳门限值。现阶段，自适应帧生成算法结合前两者特点，适用范围广，但是现有使用启发式算法动态调整门限值的方法收敛速度慢，控制变量多，容易陷入局部最优解。

4、综上，新一代战术通信网络中业务类型和链路类型众多，异构链路汇聚时，业务qos需求和链路协议差异大、链路速率波动大。传统的帧生成算法只能根据固定的成帧时间和帧大小进行成帧判断，对于异构链路汇聚处的流量动态变化适应缓慢，难以保障时敏业务的成帧时延。

技术实现思路

1、发明目的：针对以上问题，本发明目的是提供一种基于深度强化学习的战术通信网络业务成帧方法，保障时敏业务的低成帧时延，提升信道利用率和系统吞吐量。

2、技术方案：本发明的一种基于深度强化学习的战术通信网络业务成帧方法，包括：

3、划分待成帧数据包的业务类型，将上层待成帧的数据包添加到相应的发送等待队列；其中发送等待队列包括第一队列和第二队列，并且第一队列的优先级高于第二队列的优先级；

4、当需要传输数据包时，确定传输队列；

5、对传输队列进行成帧判断，若成帧，则第一队列利用基于深度强化学习的自适应帧生成算法或者第二队列利用高效率帧生成算法执行成帧操作，生成数据帧，并由物理层进行发送；

6、接收端解析收到的数据帧。

7、进一步，划分待成帧数据包的业务类型，将上层待成帧的数据包添加到相应的发送等待队列包括：

8、将待成帧数据包划分为时敏业务数据包和非时敏业务数据包，并将时敏业务数据包添加到第一队列，将非时敏业务数据包添加到第二队列。

9、进一步，确定传输队列包括：

10、首先检查第一队列中是否包含数据包，若有，则将第一队列作为传输队列；若没有，则检查第二队列中是否包含数据包，若有，则将第二队列作为传输队列；若第一队列和第二队列均没有数据包，则继续等待上层的数据包添加到发送等待队列。

11、进一步，对传输队列进行成帧判断包括对第一队列进行成帧判断；

12、对第一队列进行成帧判断的过程为：

13、将队列中的成帧决策过程构建成基于深度q神经网络dqn和马尔可夫决策过程mdp的智能决策模型，并通过时间差分算法进行训练，输出当前时刻第一队列是否成帧，若不成帧，获取第二队列的状态信息，并对第二队列进行成帧判断。

14、进一步，将队列中的成帧决策过程构建成基于深度q神经网络dqn和马尔可夫决策过程mdp的智能决策模型，并通过时间差分算法进行训练，输出当前时刻第一队列是否成帧的过程包括：

15、mdp组成元素包括智能体的状态空间 s和动作空间 a，状态空间由第一队列的信息组成，定义为，，，其中表示当前时刻 t的状态，表示第一队列的队列长度，表示第一队列中最大等待时延，表示第一队列的数据包到达速率，三个参数共同组成当前时刻 t的第一队列状态；每次获得传输资格时智能体拥有的是否成帧的策略组成动作空间，定义为，，其中表示当前时刻 t的智能体根据策略采取的动作，的取值包括0和1，取值为0表示当前应该成帧，取值为1表示当前不应该成帧；

16、深度q神经网络dqn作为智能体，寻找q值最大动作，dqn的输入层包括3个神经元，对应状态空间中的3个参数，两个全连接层各有64个神经元，输出层有2个神经元，对应智能体能够采取成帧或者不成帧的两个动作；智能体根据当前的状态决定动作，环境基于动作产生的影响给予智能体奖励来评价动作的价值，智能体不断寻找最佳的成帧策略，在每一步结束时更新mdp模型来寻找预期累积未来奖励的最佳策略，其中奖励函数的表达式为：

17、，

18、其中，表示期望成帧时延；表示当前预计成帧时延：

19、，

20、其中，表示最大帧长，表示数据包长度的参数，表示成帧时间的参数，大于1表示当前注重吞吐量的表现，小于1表示当前更加注重成帧时延的表现，等于1则表示两者同等重要；

21、根据奖励函数判断当前动作是否正确，若动作错误将会获取负奖励作为惩罚；若当前的成帧时延已经超过期望的成帧时间，奖励就会设置成负数来惩罚智能体；

22、在dqn模型中智能体将每一步过程存储为经验，表示当前 t时刻的状态，表示当前 t时刻的动作，表示当前 t时刻的奖励，表示下一时刻的状态；并且添加随机策略，增加根据随机数得到的随机动作作为训练集；

23、智能体从存储的经验中随机选择经验，利用时间差分算法td来训练智能体，td误差的计算公式如下：

24、，

25、其中，表示折扣因子，表示状态为且动作为时神经网络的预测q值；

26、智能体使用均方误差mse损失函数最小化td误差，损失函数的公式如下：

27、，

28、其中，表示根据经验池 d抽中的训练经验计算均方误差mse；

29、创建两个结构相同的深度q神经网络作为智能体，包括目标神经网络和主神经网络；环境根据动作发生变化后，智能体从环境中获取动作的奖励，通过td算法更新主神经网络，主神经网络的参数以固定频率更新到目标神经网络，主神经网络用于每次迭代更新，目标神经网络用于计算目标值。

30、进一步，对传输队列进行成帧判断还包括对第二队列进行成帧判断；

31、对第二队列进行成帧判断的过程包括：

32、获取第二队列的队列长度，判断当前队列长度是否达到最大帧长，如果大于最大帧长则成帧；如果小于最大帧长则不成帧，继续等待上层的数据包添加到发送等待队列。

33、进一步，若成帧，则第一队列利用基于深度强化学习的自适应帧生成算法或者第二队列利用高效率帧生成算法执行成帧操作，生成数据帧，并由物理层进行发送包括：

34、如果需要执行成帧操作，成帧算法会将第一队列或第二队列中的数据包组合成一帧并记录每一个数据包的长度和数据包的数量，将这些信息写入成帧算法报头添加到新组合的数据包的头部；新组合的数据包传递给mac层，添加链路层协议的帧头和帧尾，组成一个新的数据帧由物理层进行发送。

35、进一步，接收端解析收到的数据帧包括：

36、接收端在收到新组合成的数据帧后会按照链路层协议去除帧头和帧尾后，根据成帧算法报头中的信息解析数据包，恢复成组合前的数据包后传递给网络层，根据路由表继续转发或者接收。

37、有益效果：本发明与现有技术相比，其显著优点是：

38、本发明中针对不同业务不同的qos要求，分别使用不同的成帧算法，针对时敏业务使用基于深度强化学习的自适应帧生成算法，保证在吞吐量提高的基础上降低成帧时延；针对非时敏业务，使用高效率帧生成算法，提高了帧效率，以及提高瓶颈链路的信道利用率；本发明方法在网络拥塞时相较于fifo算法平均吞吐量提升了14.2%，较于传统算法相差0.9%；高优先级数据包的成帧时延较于fifo算法大幅降低，较于传统算法降低74.3%。