技术新讯 > 测量装置的制造及其应用技术 > 一种开放环境下的信号级雷达干扰生成方法及装置 > 正文

一种开放环境下的信号级雷达干扰生成方法及装置

国知局
2024-09-05 14:48:46

本发明涉及电磁空间安全，尤其涉及一种开放环境下的信号级雷达干扰生成方法及装置。

背景技术：

1、雷达干扰是一种广泛应用于现代对抗领域的干扰方法,传统雷达干扰策略，基于预设数据库、模板或大量预先准备的训练样本数据，实现对目标的识别和干扰。传统电磁环境感知和威胁识别方法依赖于大量已知目标数据的采集分析，通过解析获取目标特征，形成识别模板，战时基于模板匹配识别目标，引导实施干扰。

2、而实际对抗的开放性环境中，更多面临的是“小样本”、“零样本”问题，主要体现在以下两个方面：平时侦获的大量数据无标注，且片面残缺，有用的少量信号淹没在大量垃圾、无用信息之中，高质量数据表现为小样本特征；战时威胁多为未知目标，系统缺乏先验知识，在线仅能获取极少量的信号样本；实际对抗中极可能出现平时没有侦收到的目标信号，预先设定好的样本库或基于平时训练得到的智能对抗模型无法使用。面向小样本的电子战应用，传统电子战基于数据分析的建库方法，以及现有的初级人工智能算法都无法很好地解决实时的在线识别与对抗问题。

技术实现思路

1、本发明所要解决的技术问题在于，提供一种开放环境下的信号级雷达干扰生成方法及装置，基于强化学习思路，通过与雷达信号进行大量实时在线对抗博弈，生成雷达信号干扰及相应参数，算法模型通过大量训练学习由雷达信号到干扰信号的底层逻辑，训练后的生成模型面向未知目标博弈对抗具备一定鲁棒性。本发明首先提出一种开放电磁对抗环境下的信号级智能干扰生成方法；然后提出一种面向信号级智能电磁频谱干扰生成方法的训练方式。

2、为了解决上述技术问题，本发明实施例第一方面公开了一种开放环境下的信号级雷达干扰生成方法，所述方法包括：

3、s1，获取雷达干扰数据信息；

4、所述雷达干扰数据信息包括雷达辐射源描述字信息、干扰样式的动作空间、干扰样式和干扰样式参数空间；

5、所述雷达辐射源描述字信息包括载频信息、脉冲间隔信息、脉宽信息和雷达状态判断信息；

6、s2，对所述雷达干扰数据信息进行处理，得到状态信息s、干扰样式动作空间a、干扰样式参数空间b；

7、s3，设置干扰效能奖赏值和终止状态，根据所述状态信息s、所述干扰样式动作空间a和所述干扰样式参数空间b，利用预设的雷达干扰生成模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息。

8、作为一种可选的实施方式，本发明实施例第一方面中，所述状态信息s包括载频信息、脉冲间隔信息、脉宽信息和雷达状态判断信息，st∈s，st为t时刻雷达状态；

9、所述干扰样式动作空间a包括噪声信息、假目标信息和移动信息；

10、所述干扰样式参数空间b包括起始距离信息、停留时间信息和压制距离信息。

11、作为一种可选的实施方式，本发明实施例第一方面中，所述雷达干扰生成模型包括q函数网络和干扰样式网络；

12、所述q函数网络包括大小为82×64的第一线性层、大小为64×32的第二线性层和大小为32×3的第三线性层，激活函数为relu；

13、所述第一线性层用于接收拉平后的74维雷达辐射源描述字信息和8维动作参数信息；

14、所述第一线性层的输出输入第二线性层；

15、所述第二线性层的输出输入第三线性层；

16、所述第三线性层的输出为4个离散动作的q值；

17、所述干扰样式网络包括大小为74×8的第四线性层、大小为74×64的第五线性层、大小为64×32的第六线性层、大小为32×8的第七线性层和tanh层，激活函数为relu；

18、所述第四线性层和所述第五线性层用于输入拉平后的74维雷达辐射源描述字信息；

19、所述第五线性层的输出输入所述第六线性层；

20、所述第六线性层的输出输入所述第七线性层；

21、所述第四线性层的输出和所述第七线性层的输出进行相加得到8维动作参数信息；

22、所述tanh层用于对所述8维动作参数信息进行截断，得到在(-1,1)之内的动作参数信息。

23、作为一种可选的实施方式，本发明实施例第一方面中，所述设置干扰效能奖赏值和终止状态，利用预设的雷达干扰生成模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息，包括：

24、s31，初始化干扰样式网络μ的参数θ、q函数网络的网络参数ω、探索超参数ε和移动平均超参数τ；

25、s32，以探索超参数ε为概率，随机选取一个干扰样式k，共k个干扰样式，并随机采样所有干扰样式对应的全部参数x，取出对应干扰样式k的参数xk，xk∈x(k)，x(k)为干扰样式空间；

26、at＝(k,xk)，allt＝(k,x)

27、式中，at为t时刻干扰样式k与干扰样式k的参数xk构成的动作，allt为t时刻干扰样式k与所有干扰样式对应的全部参数x构成的动作，t＝1,2,…,t，t为终止状态；

28、s33，在状态st执行动作at，得到状态st′和奖赏值rt，将四元组(st,allt,st′,rt)加入回放池；

29、s34，从所述回放池中随机选出b个四元组，b为正整数；

30、s35，利用所述b个四元组对所述预设的雷达干扰生成模型进行训练，得到雷达干扰生成优化模型；

31、s36，利用所述雷达干扰生成优化模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息。

32、作为一种可选的实施方式，本发明实施例第一方面中，所述利用所述b个四元组对所述预设的雷达干扰生成模型进行训练，得到雷达干扰生成优化模型，包括：

33、s351，利用价值函数yj对四元组(sj,allj,s′j,rj)进行处理，得到状态sj下干扰样式网络中干扰样式kj对应的参数x′j，j＝1,2,…,b；

34、所述价值函数yj表达式为：

35、yj＝rj+γmkaxqω(s′j,k,μθ(sj))

36、式中，rj为第j个奖赏值，γ为权重函数，qω(s′j,k,μθ(sj))为q函数网络的q值表达式，s′j为第j个状态，k代表干扰样式k，x′j＝μθ(sj)为状态sj下干扰样式网络中干扰样式kj对应的参数；

37、s352，利用所述参数x′j对q函数网络的网络参数进行更新，得到更新的q函数网络；

38、s353，利用所述价值函数yj和所述更新的q函数网络，对所述干扰样式网络进行参数更新，得到更新的干扰样式网络；

39、s354，对所述更新的q函数网络和所述更新的干扰样式网络进行整合，得到雷达干扰生成优化模型。

40、作为一种可选的实施方式，本发明实施例第一方面中，所述利用所述雷达干扰生成优化模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息，包括：

41、s361，利用标准化处理模型，对待处理的雷达干扰数据信息进行标准化处理，得到标准化雷达干扰数据信息；

42、所述标准化处理模型表达式为：

43、

44、式中，x为原始输入，xstand为标准化雷达干扰数据信息，μ为x的均值，σ为x的标准差；

45、s362，利用所述雷达干扰生成优化模型，对所述标准化雷达干扰数据信息进行处理，得到雷达干扰信号信息；所述雷达干扰信号信息为使q函数网络的q值最大的动作。

46、作为一种可选的实施方式，本发明实施例第一方面中，所述利用所述b个四元组对所述预设的雷达干扰生成模型进行训练，得到雷达干扰生成优化模型的方法还包括：

47、利用价值函数y1j对四元组(sj,allj,s′j,rj)进行处理，得到状态sj下干扰样式网络中干扰样式kj对应的参数x′j，j＝1,2,…,b；

48、所述价值函数y1j表达式为：

49、

50、式中，rj为第j个奖赏值，γ为权重函数，qω1(s′j,k,μθ(sj))为第一q函数网络的第一q值表达式，qω2(s′j,k,μθ(sj))为第二q函数网络的第二q值表达式，s′j为第j个状态，k代表干扰样式k，x′j＝μθ(sj)为状态sj下干扰样式网络中干扰样式kj对应的参数；

51、利用所述参数x′j对所述第一q函数网络和所述第二q函数网络的网络参数进行更新，得到更新的q函数网络；所述q函数网络包络第一q函数网络和第二q函数网络；

52、利用所述价值函数y1j和所述更新的q函数网络，对所述干扰样式网络进行参数更新，得到更新的干扰样式网络；

53、对所述更新的q函数网络和所述更新的干扰样式网络进行整合，得到雷达干扰生成优化模型。

54、本发明实施例第二方面公开了一种开放环境下的信号级雷达干扰生成装置，所述装置包括：

55、信息获取模块，用于获取雷达干扰数据信息；

56、所述雷达干扰数据信息包括雷达辐射源描述字信息、干扰样式的动作空间、干扰样式和干扰样式参数空间；

57、所述雷达辐射源描述字信息包括载频信息、脉冲间隔信息、脉宽信息和雷达状态判断信息；

58、信息处理模块，用于对所述雷达干扰数据信息进行处理，得到状态信息s、干扰样式动作空间a、干扰样式参数空间b；

59、雷达干扰信号生成模块，用于设置干扰效能奖赏值和终止状态，根据所述状态信息s、所述干扰样式动作空间a和所述干扰样式参数空间b，利用预设的雷达干扰生成模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息。

60、作为一种可选的实施方式，本发明实施例第二方面中，所述状态信息s包括载频信息、脉冲间隔信息、脉宽信息和雷达状态判断信息，st∈s，st为t时刻雷达状态；

61、所述干扰样式动作空间a包括噪声信息、假目标信息和移动信息；

62、所述干扰样式参数空间b包括起始距离信息、停留时间信息和压制距离信息。

63、作为一种可选的实施方式，本发明实施例第二方面中，所述雷达干扰生成模型包括q函数网络和干扰样式网络；

64、所述q函数网络包括大小为82×64的第一线性层、大小为64×32的第二线性层和大小为32×3的第三线性层，激活函数为relu；

65、所述第一线性层用于接收拉平后的74维雷达辐射源描述字信息和8维动作参数信息；

66、所述第一线性层的输出输入第二线性层；

67、所述第二线性层的输出输入第三线性层；

68、所述第三线性层的输出为4个离散动作的q值；

69、所述干扰样式网络包括大小为74×8的第四线性层、大小为74×64的第五线性层、大小为64×32的第六线性层、大小为32×8的第七线性层和tanh层，激活函数为relu；

70、所述第四线性层和所述第五线性层用于输入拉平后的74维雷达辐射源描述字信息；

71、所述第五线性层的输出输入所述第六线性层；

72、所述第六线性层的输出输入所述第七线性层；

73、所述第四线性层的输出和所述第七线性层的输出进行相加得到8维动作参数信息；

74、所述tanh层用于对所述8维动作参数信息进行截断，得到在(-1,1)之内的动作参数信息。

75、作为一种可选的实施方式，本发明实施例第二方面中，所述设置干扰效能奖赏值和终止状态，利用预设的雷达干扰生成模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息，包括：

76、s31，初始化干扰样式网络μ的参数θ、q函数网络的网络参数ω、探索超参数ε和移动平均超参数τ；

77、s32，以探索超参数ε为概率，随机选取一个干扰样式k，共k个干扰样式，并随机采样所有干扰样式对应的全部参数x，取出对应干扰样式k的参数xk，xk∈x(k)，x(k)为干扰样式空间；

78、at＝(k,xk)，allt＝(k,x)

79、式中，at为t时刻干扰样式k与干扰样式k的参数xk构成的动作，allt为t时刻干扰样式k与所有干扰样式对应的全部参数x构成的动作，t＝1,2,…,t，t为终止状态；

80、s33，在状态st执行动作at，得到状态st′和奖赏值rt，将四元组(st,allt,st′,rt)加入回放池；

81、s34，从所述回放池中随机选出b个四元组，b为正整数；

82、s35，利用所述b个四元组对所述预设的雷达干扰生成模型进行训练，得到雷达干扰生成优化模型；

83、s36，利用所述雷达干扰生成优化模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息。

84、作为一种可选的实施方式，本发明实施例第二方面中，所述利用所述b个四元组对所述预设的雷达干扰生成模型进行训练，得到雷达干扰生成优化模型，包括：

85、s351，利用价值函数yj对四元组(sj,allj,s′j,rj)进行处理，得到状态sj下干扰样式网络中干扰样式kj对应的参数x′j，j＝1,2,…,b；

86、所述价值函数yj表达式为：

87、yj＝rj+γmkaxqω(s′j,k,μθ(sj))

88、式中，rj为第j个奖赏值，γ为权重函数，qω(s′j,k,μθ(sj))为q函数网络的q值表达式，s′j为第j个状态，k代表干扰样式k，x′j＝μθ(sj)为状态sj下干扰样式网络中干扰样式kj对应的参数；

89、s352，利用所述参数x′j对q函数网络的网络参数进行更新，得到更新的q函数网络；

90、s353，利用所述价值函数yj和所述更新的q函数网络，对所述干扰样式网络进行参数更新，得到更新的干扰样式网络；

91、s354，对所述更新的q函数网络和所述更新的干扰样式网络进行整合，得到雷达干扰生成优化模型。

92、作为一种可选的实施方式，本发明实施例第二方面中，所述利用所述雷达干扰生成优化模型，对待处理的雷达干扰数据信息进行处理，得到雷达干扰信号信息，包括：

93、s361，利用标准化处理模型，对待处理的雷达干扰数据信息进行标准化处理，得到标准化雷达干扰数据信息；

94、所述标准化处理模型表达式为：

95、

96、式中，x为原始输入，xstand为标准化雷达干扰数据信息，μ为x的均值，σ为x的标准差；

97、s362，利用所述雷达干扰生成优化模型，对所述标准化雷达干扰数据信息进行处理，得到雷达干扰信号信息；所述雷达干扰信号信息为使q函数网络的q值最大的动作。

98、作为一种可选的实施方式，本发明实施例第二方面中，所述利用所述b个四元组对所述预设的雷达干扰生成模型进行训练，得到雷达干扰生成优化模型的方法还包括：

99、利用价值函数y1j对四元组(sj,allj,s′j,rj)进行处理，得到状态sj下干扰样式网络中干扰样式kj对应的参数x′j，j＝1,2,…,b；

100、所述价值函数y1j表达式为：

101、y1j＝rj+γmin{mkaxqω1(s′j,k,μθ(sj)),mkaxqω2(s′j,k,μθ(sj))}

102、式中，rj为第j个奖赏值，γ为权重函数，qω1(s′j,k,μθ(sj))为第一q函数网络的第一q值表达式，qω2(s′j,k,μθ(sj))为第二q函数网络的第二q值表达式，s′j为第j个状态，k代表干扰样式k，x′j＝μθ(sj)为状态sj下干扰样式网络中干扰样式kj对应的参数；

103、利用所述参数x′j对所述第一q函数网络和所述第二q函数网络的网络参数进行更新，得到更新的q函数网络；所述q函数网络包络第一q函数网络和第二q函数网络；

104、利用所述价值函数y1j和所述更新的q函数网络，对所述干扰样式网络进行参数更新，得到更新的干扰样式网络；

105、对所述更新的q函数网络和所述更新的干扰样式网络进行整合，得到雷达干扰生成优化模型。

106、本发明第三方面公开了另一种开放环境下的信号级雷达干扰生成装置，所述装置包括：

107、存储有可执行程序代码的存储器；

108、与所述存储器耦合的处理器；

109、所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的开放环境下的信号级雷达干扰生成方法中的部分或全部步骤。

110、本发明第四方面公开了一种计算机可存储介质，所述计算机可存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的开放环境下的信号级雷达干扰生成方法中的部分或全部步骤。

111、与现有技术相比，本发明实施例具有以下有益效果：

112、本发明方法的优势在于采用强化学习与混合动作空间的方式，即通过平时大量实时在线雷达对抗训练，训练算法由雷达信号到输出干扰信号的底层逻辑，从而有效应对未知、小样本环境下的雷达目标对抗问题。此外，本发明提供一种面向信号级雷达对抗的智能算法及训练方法，算法输入为雷达信号描述字，支持信号级参数输出，保证算法在充分探索空间的条件下提高其探索效率，直至生成最优干扰。