基于强化学习的短波自适应调制方法
- 国知局
- 2024-08-02 14:58:38
本发明属于通信调制领域,具体涉及基于强化学习的短波自适应调制方法。
背景技术:
1、自适应调制技术(am)是提高短波通信系统信道适应性的有效手段,相对于在单一调制方式下调整调制参数的自适应调制方法,采用多调制方式的自适应调制可在短波信道这类时变信道下提供更大的适应范围。
2、近些年,随着人工智能研究的火热开展,机器学习被广泛应用于各个领域。作为分支之一的强化学习,因其在与环境交互过程中的通过在线试错获取数据,并自主学习实现模型优化的特点,十分适用于无线通信环境。已有不少相关技术将强化学习用于其中,如路由协议,水下机器人(auv)和节点定位以及自适应通信等方向,例如中国专利cn110519013a公开了一种基于强化学习的水声通信自适应调制方法,通过强化学习的方式解决了现有水声自适应通信系统中的反馈信道状态信息过时问题引起的系统性能下降的问题。目前,通过强化学习的方法来研究自适应调制(am)已经逐渐成为一个研究热点。强化学习能够通过不断试错和探索学习信道变化,故根据反馈的奖励和状态值能够实现对下一状态的预测,从而有效解决反馈过时的问题。例如,song等提出了一种基于dyna-q的自适应调制算法,利用有效信噪比衡量信道状态,通过dyna-q算法预测下一状态和通信吞吐量,并在移动auv场景下进行了效果验证;苏伟等提出了一种基于强化学习的自适应调制编码方案,该方案在无需知道信道模型的先验知识下可以根据信道质量服务的需求,来选择传输策略,以提高通信效率;李萍等提出了一种基于sarsa算法的自适应调制方法,可以在保证系统可靠性的基础上同时提高通信吞吐量。
3、然而,在短波通信系统中,短波通信是一种依赖电离层反射进行远距离传输的无线通信方式,由于电离层作为信号反射媒质的可变性很大,导致信道变化较快,因此短波通信需要根据信道状态信息(csi)改变当前信道状态下的调制方式。为了满足短波通信的质量要求,同时最大化传输速率,需要采用自适应调制技术根据接收端的信道状态信息(csi)在短波时变的通信环境下动态调整发射机的调制阶数。传统的自适应调制是根据固定信噪比进行调制方式的切换,但由于短波信道时变的特点,因此基于固定阈值的自适应调制并不能最大化传输效率;而影响短波通信质量的因素不仅与信噪比有关,还与多普勒频移和时延有关,因此,传统技术中单一考虑信噪比对短波通信系统通信质量的影响显得略显不足。
技术实现思路
1、基于现有技术存在的问题,本发明提供了一种基于强化学习的短波自适应调制方法,应用于短波通信自适应系统中,所述方法包括:
2、(1)设定短波通信系统的状态空间、动作空间和奖励空间;初始化经验回放池、评估网络、目标网络、置信区间上界ucb网络;所述状态空间为线性调频信号对短波信道的信噪比、多普勒频移和时延的估计加权值的集合,所述动作空间为调制方式的集合,每一种调制方式为一种动作;所述奖励空间记载衡量给定状态下各调制方式的价值,将选择调制方式下的误码率作为奖励回报;
3、(2)将当前信道状态输入到评估网络,计算奖励方差和置信度值,选择使置信度值最大的动作作为调制方式;
4、(3)发射端按照选择的动作调整调制方式;发射信号经过短波信道后到达接收端,在接收端,系统根据当前执行的动作计算出相应的奖励值;
5、(4)将当前时刻的信道状态、所执行的动作、所获得的奖励值以及下一时刻的信道状态,组合成一组完整的样本,随后被存入经验回放池中;
6、(5)在当前迭代过程中,判断当前经验回放池是否存满数据,如果存满数据,此时进入进行网络参数的更新操作,将评估网络的参数复制给目标网络;如果余数不为0,则不满足网络更新的条件,此时更新当前的信道状态,并返回到(2)继续下一轮的迭代过程;
7、(6)在经验回放池当中随机性的选择n组样本,并将它们作为训练集输入,计算当前迭代次数对当前目标网络更新周期的取余结果是否为0;若取余结果是0,则将评估网络的当前参数复制到目标网络中,以更新目标网络;
8、(7)重复步骤(1)~(7),直至发射端不再调制信号或者达到最大迭代次数t,最终得到强化学习的最佳调制策略。
9、本发明的有益效果:
10、本发明可以与短波信道进行交互学习,在解决短波高动态场景下信道快速变化的问题上具有优势,本发明将影响短波通信质量的信噪比、多普勒频率和时延都纳入信道状态信息进行考虑,能够进一步提升通信质量,还能够在保证通信质量的前提下最大化传输速率;本发明采用了一种改进的置信区间上界算法(ucb)对调制方式进行选择,并利用改进后的动作决策方法,利用神经网络反向传播的特性,在每次动作探索后都更新ucb网络的参数,从而平衡置信区间跨度,使得选择出的调制方式更具有策略性,更符合短波通信系统的场景特性。
技术特征:1.一种基于强化学习的短波自适应调制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于强化学习的短波自适应调制方法,其特征在于,状态空间中各个估计值的获取方式包括利用线性调频信号lfm在被短波接收机同步捕获后依次对时延、多普勒频移和信噪比进行估计,利用两条脉冲峰值之间的长度与点数差,计算得到来自于两条径的时延估计值;利用两个调频斜率相反的lfm信号分别进行匹配滤波,确定出两个脉冲峰值之间的间隔,求得频移估计值;根据lfm信号进行匹配滤波的特性,求得其信噪比估计值。
3.根据权利要求2所述的一种基于强化学习的短波自适应调制方法,其特征在于,所述时延估计值的计算公式表示为:
4.根据权利要求2所述的一种基于强化学习的短波自适应调制方法,其特征在于,所述频移估计值的计算公式表示为:
5.根据权利要求2所述的一种基于强化学习的短波自适应调制方法,其特征在于,所述信噪比估计值的计算公式表示为:
6.根据权利要求1所述的一种基于强化学习的短波自适应调制方法,其特征在于,步骤(2)中选择使置信度值最大的动作作为调制方式所采用的动作选择公式为:
7.根据权利要求6所述的一种基于强化学习的短波自适应调制方法,其特征在于,所述更新权值函数为:
8.根据权利要求1所述的一种基于强化学习的短波自适应调制方法,其特征在于,奖励的计算公式包括:
技术总结本发明属于通信调制领域,具体涉及一种基于强化学习的短波自适应调制方法。所述方法利用短波探测系统采用频谱感知的方法对信道进行质量评估,使用线性调频信号对信道的多径时延、多普勒频偏以及信噪比等参数进行估计,并将每种参数值及其影响权重加权作为信道状态,然后映射为强化学习的状态空间,本发明可以在没有信道先验信息或系统模型的情况下工作,根据可用的信道状态和相应的奖励来训练最优的动作策略,强化学习在解决短波高动态场景下信道快速变化的问题上具有优势,因此可以与短波信道进行交互学习,从而在保证通信质量的前提下最大化传输率。技术研发人员:李国军,金文皓,谢文希,叶昌荣,马宝泽受保护的技术使用者:重庆邮电大学技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240801/244526.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表