技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于强化学习的GEO卫星多波束功率分配方法与流程  >  正文

一种基于强化学习的GEO卫星多波束功率分配方法与流程

  • 国知局
  • 2024-08-05 12:17:59

本发明属于通信,特别是一种基于强化学习的geo卫星多波束功率分配方法。

背景技术:

1、空天地一体是b5g/6g时代的重要特征,卫星通信网络可以和地面通信网络高效互补,尤其在海洋、沙漠、无人区等偏远地带具有重大意义。卫星互联网、卫星物联网、手机直连卫星等技术成为了通信科研和产业相关人员密切关注的技术 。

2、与地面移动通信系统不同,卫星由于其所处空间的特殊性,其能源供给存在较大限制,供能系统通常由太阳能帆板提供。在进行对地通信时,功率资源在不同波束之间的分配就显得尤为重要,尤其是geo卫星,geo卫星波束指向不同以及地球自身地理特性,在采用均分功率的情况下,不同波束之间由于通信距离不同等原因早上在地表形成eirp等高线明显不同。在实际星地通信中,接受信号的强弱往往代表着通信质量的好坏,而采用平均分配功率的方法明显不可取,将通信距离小些的波束功率转移给通信距离更远的波束可以提升整体通信质量,那么如果高效地使用功率资源就成为卫星通信技术领域亟需解决的问题。

技术实现思路

1、本发明的目的在于克服上述现有技术的缺点,提供了一种基于强化学习的geo卫星多波束功率分配方法。本发明利用强化学习机制实现对于geo卫星多波束功率优化调整,获取不同配置下的eirp等高线,通过最优化不同eirp等高线覆盖面积,扩展星地通信覆盖面积,提升星地通信服务质量。

2、为达到上述目的,本发明采用的技术方案是:

3、一种基于强化学习的geo卫星多波束功率分配方法,所述geo卫星具有n个波束,星载波束总功率载荷为ptotal,该方法包括以下步骤:

4、步骤1,将星载波束总功率载荷ptotal平均分给n个波束;定义t时刻的系统状态为st=(p1,p2,…,pn),pi为波束i的功率,i=1,2,...,n;定义星载多波束功率调整行动aij,i≠j,表示在波束i中降低1个单位的功率,并在波束j中增加1个单位的功率,从而形成行动空间a=[aij];定义回馈值函数rw(aij|st),rw(aij|st)的定义方式为:

5、在系统状态st下,采用行动aij后,在地面绘制多个不同的等效全向辐射功率等高线,计算不同的等高线所覆盖区域的面积;为各区域的面积分配权值,使得等效全向辐射功率越大则权值越大;根据所分配的权值,计算所有区域的面积的加权和,即为rw(aij|st)的值;

6、步骤2,在当前系统状态st下,利用随机数产生下一步行动类型,行动类型包括随机探索行动和最优回馈值行动;若下一步行动类型为随机探索行动,则随机选择一个动作作为下一步行动,然后重复步骤2;否则,计算在当前系统状态下采用不同行动所获得的回馈值数列[rw(aij|st)],根据回馈值数列选取具有最优回馈值的动作a(st),继续步骤3;

7、步骤3,依据所获得的回馈值rw(a(st)|st),判断当前优化行为是否已经结束,若rw(a(st)|st)-rw(a(st-1)|st-1)≤rwth,即采用某动作后,奖励值增益低于阈值rwth,则停止优化过程,得到最终的多波束功率分配方案。

8、进一步地,获取回馈值rw(aij|st)的方式为:

9、利用stk仿真工具,将geo卫星的n个波束等价模拟为单个波束;

10、依据系统状态st和动作aij,获取未来的新状态st+1,依据新状态进行geo卫星各个波束的功率设置;

11、获取模拟波束在地面的多个等效全向辐射功率等高线,进而获取不同等高线所覆盖区域的面积;

12、采用一个值域大于0的严格单调递增的有界函数作为映射函数,例如:f(x)=a(π/2+arctan x),a为用于调整权值取值范围的系数,将各区域的等效全向辐射功率映射为该区域的面积的权值,计算所有区域的面积的加权和,即为rw(aij|st)。

13、进一步地,步骤2中,利用随机数产生下一步行动类型的具体方式为:

14、设置随机探索阈值eps,产生0到1之间的随机数rd,若rd≤eps,则随机选择一个动作apq作为下一步行动,否则选取具有最优回馈值的动作作为下一步行动。

15、本发明具有以下有益效果:

16、1、本发明的回馈值反映了在不同配置下的覆盖区域面积和通信质量,在不同状态下,计算获取不同行动的回馈值,并设置随机参数,避免优化过程沿着单一固定路线演进。

17、2、本发明能够优化多波束功率的配置情况,实现geo卫星对地通信覆盖区域和通信质量的提升。

技术特征:

1.一种基于强化学习的geo卫星多波束功率分配方法,所述geo卫星具有n个波束,星载波束总功率载荷为ptotal,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于强化学习的geo卫星多波束功率分配方法,其特征在于,获取回馈值rw(aij|st)的方式为:

3.根据权利要求1所述的一种基于强化学习的geo卫星多波束功率分配方法,其特征在于,步骤2中,利用随机数产生下一步行动类型的具体方式为:

技术总结本发明提出一种基于强化学习的GEO卫星多波束功率分配方法,属于通信技术领域。该方法构建了GEO卫星多波束功率分配的强化学习模型,定义了其状态空间、行动空间,并设置状态‑行动值回馈值函数,其中,状态‑行动值回馈值函数定义为通信覆盖面积和通信质量的函数,当回馈值不断提升时表征着通信覆盖面积和通信质量均在提升。利用基于模型的强化学习架构,采用随机探索结合最优值演进的方式探索GEO卫星多波束功率分配最优模型。本发明可在不同波束之间对星载受限功率资源进行灵活分配和调度,实现通信质量和通信覆盖区域的同时提升。技术研发人员:张海鹏,刘宁,李亚明,段玮倩,刘允,王子恺,郑翔,蔡敬艺受保护的技术使用者:中国电子科技集团公司第五十四研究所技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/262030.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。