技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于深度强化学习的多信道数据传输协同抗干扰方法 > 正文

一种基于深度强化学习的多信道数据传输协同抗干扰方法

国知局
2024-08-02 14:42:16

本发明属于无线通信抗干扰，特别是一种基于深度强化学习的多信道数据传输协同抗干扰方法。

背景技术：

1、无线通信技术的迅猛发展给社会生活带来极大的便利，满足在任何时间、任何地点与任何人进行通信的愿望(王新丽,宋健.移动通信网络的优化[j].合作经济与科技,2011(21):2.)。然而，提供可靠的通信链路和满意的通信服务质量，还有诸多问题有待解决。便携通信设备的普及和iot设备数量的爆炸性增长(k.shafique,b.a.khawaja,f.sabir,s.qazi and m.mustaqim,"internet of things(iot)for next-generationsmart systems:areview ofcurrent challenges,future trends and prospects foremerging 5g-iot scenarios,"in ieeeaccess,vol.8,pp.23022-23040,2020.)，无线设备之间的用频冲突问题加剧；下一代互联网演进过程中，网络互联互通、资源共享(祁子军.三网融合中互联互通问题及法律对策[j].中国标准化,2019(16):2.)，各种业务的传输需求各不相同；恶意干扰给无线通信网络的安全带来巨大的威胁。急需有效的频谱分配方案和数据传输方法来解决无线数据传输问题。

2、传统基于干扰躲避技术的抗干扰方法如跳频(y.gao,y.xiao,m.wu,m.xiao andj.shao,“game theory-based anti-jamming strategies for frequency hoppingwireless communications,”in ieee transactions on wireless communications,vol.17,no.8,pp.5314-5326,aug.2018.)、扩频(huang,wenzhun,et al.“a novel anti-jamming driven sparse analysis-based spread spectrum communicationmethodology.”international journal ofpattern recognition andartificialintelligence 33.1(2018):1958001.1-1958001.17.)等，其核心思路是将通信频率变换到与干扰信号不同范围的频段躲避干扰，具有一定的抗干扰能力。但在多设备网络中，由于设备之间缺乏协调机制抗干扰效果无法保证，甚至会加剧用频冲突问题(li,wen,et al.“aq-learning-based channel selection anddata scheduling approach for high-frequency communications in jamming environment.”international conference onmachine learning and intelligent communications springer,cham,2019.)。

3、为解决上述的挑战，充分利用频谱空洞提高通信质量，多信道传输是一个可选的方案。本发明研究了分布式无线通信网络的多信道抗干扰数据传输问题，将并行信道传输方式(陈昕,徐彤,向旭东,等.具有并行信道的认知无线网络性能评价研究[j].计算机研究与发展,2013,50(10):7.)和分集信道传输方式(w.li,l.ruan,y.xu,y.zhang,y.xu andx.shao,“exploring channel diversity in hf communication systems:a matching-potential game approach,”in china communications,vol.15,no.9,pp.60-72,sept.2018.)结合使用，数据传输需求较大时采用并行传输方式以提高数据传输速率为主要目标，数据传输需求较小时采用分集传输方式确保数据传输的可靠性。本发明将多信道数据传输过程采用多用户马尔可夫决策过程进行建模，提出了基于多信道传输的深度强化学习抗干扰算法，通信用户独立进行传输方式选择、通信信道决策和神经网络训练，能够学习得到有效的数据传输策略。

技术实现思路

1、本发明的目的在于提供一种基于深度强化学习的多信道数据传输协同抗干扰方法，很好地刻画基于多智能体深度强化学习的多信道数据传输协同抗干扰场景。

2、实现本发明目的的技术解决方案为：一种基于深度强化学习的多信道数据传输协同抗干扰方法，包括如下步骤：

3、步骤1，建立多信道数据传输协同抗干扰系统模型、通信模型和数据传输模型；

4、步骤2，以频谱瀑布图为状态，以传输方式的选择和传输信道的选择为动作，将多信道数据传输协同抗干扰过程建模为多用户马尔可夫决策过程；

5、步骤3，发射机根据当前缓冲区数量和数据传输模型初始化传输方式，根据状态和动作定义发射机的状态-动作值函数，执行选择的动作之后，获得奖励，感知当前频谱，状态转移到下一状态，并将当前状态、动作、状态价值和下一时刻状态作为经验，存储到经验池中；

6、步骤4，从经验池中随机批量采样训练神经网络，所述神经网络引入mellowmax算子计算目标状态价值，并基于纯贪婪策略选择动作，确定传输方式和传输信道。

7、进一步的，步骤1，建立多信道数据传输协同抗干扰系统模型、通信模型和数据传输模型，其中：

8、多信道数据传输协同抗干扰系统模型为由一个干扰机和n组通信用户组成的无线数据传输网络，用户由一个发射机和一个接收机组成，表示为发射机缓冲区的存储容量上限为l,待发送的业务数据首先被存储在发射机的缓冲区内，然后由发射机进行传输；假设业务数据服从均值为λ的泊松分布，第t时隙发射机n到达个数据包的概率为发射机n在第t时隙时的缓冲区存储量为本时隙新到达的数据包数量为发送的数据包数量为因恶意干扰或同频互扰导致传输失败的数据包数量为则第t时隙发射机n成功传输的数据包数量为：

9、

10、每个时隙结束后，接收机通过ack信号反馈本次接收情况给发射机，发射机根据ack信号携带的反馈信息，将成功传输的数据包从缓冲区内删除，释放存储空间；将传输失败的数据包继续保存，等待下一个时隙进行重传，所以，第t+1时隙传输开始时发射机n缓冲区数据量为：

11、

12、若缓冲区内数据量达到存储容量上限，无法存入的数据包则会丢失。

13、进一步的，步骤1，建立多信道数据传输协同抗干扰系统模型、通信模型和数据传输模型，其中：

14、信道数据传输协同抗干扰的通信模型，假设整个通信网络共享一个频段，该频段被均分为m个不重复的可用信道，表示为信道的频率范围为[fk-b/2,fk+b/2]，其中，fk为信道k的中心频率，b为信道带宽，用户n在信道k进行数据传输时的sinr为：

15、

16、

17、

18、

19、

20、其中，pn为一个信道上的数据传输功率，un(f)为发射机n的psd方程，为发射机n在信道k的信道系数，in,k为发射机n在信道k受到其他用户同频互扰的功率，um(f)为发射机m的psd方程，为发射机m在信道k的信道系数，nn为除发射机n以外的其他发射机集合，fm为发射机m所选传输信道的中心频率，jn,k为发射机n在信道k上受到恶意干扰的功率，为干扰信号在信道k上的信道系数，j(f)为干扰机的psd方程，fj为干扰所选传输信道的中心频率，δ为加性高斯白噪声的功率，n(f)为加性高斯白噪声的psd方程；

21、βth为接收机解调数据所需的阈值，βn,k≥βth时发射机n在信道k传输的数据能够被成功接收，考虑所有信号同时存在，发射机n频谱感知的结果为：

22、

23、其中，nn为除发射机n以外的其他发射机集合，um(f)为发射机m的psd方程，fm为发射机m所选传输信道的中心频率，为发射机m在发射机n占用信道上的信道系数，j(f)为干扰机的psd方程，fj为干扰所选传输信道的中心频率，为干扰j在发射机n占用信道上的信道系数，n(f)为加性高斯白噪声的psd方程；

24、离散频谱采样值定义为：

25、

26、其中，δf为频谱采样的分辨率，一次频谱感知得到的结果为o＝[o1,o2,…,ox]t，x为采样点个数。

27、进一步的，步骤1，建立多信道数据传输协同抗干扰系统模型、通信模型和数据传输模型，其中：

28、数据传输模型，通信用户根据传输需求和频谱环境状态选择不同的传输方式，用户选择分集传输和并行传输两种数据传输方式，当用户无传输需求时则选择保持沉默；

29、分集传输，采用频率分集方式，发射机在多个信道上传输相同的数据，接收机只要能够在任意信道上完整的接收数据，则该数据传输成功；并行传输，发射机在多个信道上同时传输不同的数据，多个数据包在不同信道独立传输；沉默，发射机无数据传输需求以及频谱资源大范围遭到干扰时，发射机保持沉默。

30、进一步的，步骤2，考虑连续决策优化问题，每个用户将最大化长期累计折扣成功传输的数据包数量作为优化目标，构建目标函数，表示为：

31、

32、其中γ(0＜γ＜1)为折扣因子，为用户n在t时隙成功传输的数据包数量。

33、进一步的，步骤2，以频谱瀑布图为状态，以传输方式的选择和传输信道的选择为动作，将多信道数据传输协同抗干扰过程建模为多用户马尔可夫决策过程，具体方法为：

34、(1)状态

35、采用时间拓扑结构，将环境状态设置为频谱瀑布图，即保存一段时间内的频谱感知结果所构建的环境特征矩阵，t时隙的环境状态表示为st＝[ot,ot-1,...,ot-φ+1]t，其中φ为历史回溯时长；

36、(2)动作

37、发射机n在每次数据传输之前选择一个动作，动作选择包含传输方式的选择和传输信道的选择，定义传输方式切换门限γ，当缓冲区数据包的数量时，传输方式选择为并行传输；当缓冲区数据包的数量时，传输方式选择为分集传输；缓冲区数据包数量时，发射机保持沉默；并行信道数量和分集信道数量均为d(d＜m)，发射机选择的动作为an＝(cd)d＝1,2,...,d，动作集的大小为

38、(3)奖励值函数

39、奖励值函数的设计与传输方式、成功传输信道数量有关，当传输方式为分集传输时，仅需要任意一个信道传输未被干扰即成功传输数据，设成功传输的信道数量为α，则奖励值r设置为α/d；当传输方式为并行传输且所有并行信道上的数据均传输成功时，奖励值r设置为d，一旦存在数据传输失败，奖励值r设置为0.1φ，其中φ为失败传输的信道数量；当发射机选择沉默，不进行数据传输时，奖励值r设置为0；

40、(4)多用户马尔可夫决策过程

41、多用户马尔可夫决策过程表示为其中，为用户的集合，s为状态空间，an用户n的动作空间，rn:为用户n的奖励函数，pr为状态转移概率函数。

42、进一步的，步骤4，从经验池中随机批量采样训练神经网络，所述神经网络引入mellowmax算子计算目标状态价值，确定传输方式和传输信道，其中：

43、采用mellowmax算子mmw(·)来计算目标状态价值targetq，表示为：

44、

45、其中，w(w＞0)为温度参数。

46、进一步地，引入mellowmax算子之后的q函数更新方式为：

47、

48、损失函数的梯度值表示为：

49、

50、基于公式13，采用梯度下降优化方法来训练多信道传输神经网络。

51、一种基于深度强化学习的多信道数据传输协同抗干扰方法，实施所述的基于深度强化学习的多信道数据传输协同抗干扰方法，实现基于深度强化学习的多信道数据传输协同抗干扰。

52、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实施所述的基于深度强化学习的多信道数据传输协同抗干扰方法，实现基于深度强化学习的多信道数据传输协同抗干扰。

53、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实施所述的基于深度强化学习的多信道数据传输协同抗干扰方法，实现基于深度强化学习的多信道数据传输协同抗干扰。

54、本发明与现有技术相比，其显著优点在于：(1)通信用户根据缓存区内待传输的数据包数量在分集传输和并行传输中选择传输方式；(2)模型完备，物理意义清晰，提出的基于多智能体深度强化学习的多信道抗干扰数据传输算法，实现对提出模型的有效求解，求出发射机根据环境状态通过各自的深度神经网络分布式决策传输信道并进行数据传输；(3)能够有效地应对动态干扰，并很好地刻画基于多智能体深度强化学习的多信道抗干扰场景。