基于深度强化学习的无人艇动态目标捕捉方法、电子设备及存储介质
- 国知局
- 2024-07-31 23:57:40
本发明属于无人艇,具体涉及基于深度强化学习的无人艇动态目标捕捉方法、电子设备及存储介质。
背景技术:
1、无人艇是指无人驾驶的水面运动装置,能够在各种复杂的环境中执行水面任务并且无需人为干预,其具有体积小,速度快,响应迅速等特点,在商业和军事领域中逐渐被采用,其中水上目标捕捉是其具有的独特的功能之一。
2、在无人艇控制领域,强化学习因为较好的控制效果而逐渐应用在越来越多的无人艇作业任务上。在目前的研究中,大多数算法仅仅停留在躲避静态障碍物、搜索静态目标点方面,对于动态障碍物的躲避以及动态目标的围捕往往不能达到理想的效果,主要原因在于无人艇不能对动态障碍物或目标点的轨迹做出预测,从而提前做出反应,因此,如何使无人艇对于动态障碍物或目标点的轨迹做出预测,获得未来状态从而提前决策是急需解决的问题。
技术实现思路
1、针对现有技术中存在的问题和不足,本发明的目的旨在提供一种基于深度强化学习的无人艇动态目标捕捉方法、电子设备及存储介质。
2、为实现发明目的,本发明采用的技术方案如下:
3、本发明首先提供一种基于深度强化学习的无人艇动态目标捕捉方法,包括以下步骤:
4、s1、创建海面虚拟环境;
5、s2、初始化动态目标的运动轨迹和无人艇位置,并设置捕获阈值;
6、s3、设置优先经验回放记忆池、状态空间、动作空间和奖励函数,并创建未来状态预测奖励框架;所述未来状态预测奖励框架包括未来状态预测网络和差分模块;
7、s4、基于竞争q网络搭建策略网络,根据无人艇的状态、动作以及奖励函数对策略网络进行训练;
8、s5、基于所述未来状态预测网络的输出状态、无人艇雷达点云信息、动态目标与无人艇的距离以及动态目标在无人艇的方位,获得无人艇的当前状态;
9、s6、将所述无人艇的当前状态输入至训练好的策略网络中,生成动作值并输出至无人艇;
10、s7、无人艇执行策略网络的输出动作;
11、s8、重复执行步骤s5~s7,直至无人艇与动态目标的距离小于所述捕获阈值。
12、进一步地,步骤s2中所述动态目标的运动轨迹为多边形或圆形;所述捕获阈值表示为β,β的范围为0.1~0.3m,当无人艇与动态目标的距离小于β时,则无人艇捕获到目标。
13、进一步地,步骤s3中所述状态空间如下:
14、st={radart,δdt,αt,s't+1}
15、其中radart表示t时刻雷达的点云数据,s′t+1表示t时刻未来状态预测网络输出的t+1时刻的状态,δdt表示t时刻无人艇与动态目标点的距离,αt表示t时刻动态目标点在无人艇的方位,δdt和αt分别为和
16、进一步地,步骤s3中所述动作空间为at=(ft,δt),其中ft表示动力,δt表示舵角。
17、进一步地,步骤s3中所述奖励函数如下:
18、
19、其中表示距离奖励,表示速度奖励,vt表示无人艇的速度,表示时间奖励,rc表示差分奖励。
20、进一步地,步骤s3中所述优先经验回放记忆池的优先级pt为:
21、
22、pt=|δt+ε|
23、δt=rt+γqtarget(st+1,at+1)-q(st,at)
24、其中δt为时序差分误差,γ为折扣因子,q(st,at)为评价网络q对于状态st执行at的评价值,qtarget(st+1,at+1)为目标网络对于状态st+1执行at+1的评价值,ε是一个常数。
25、进一步地,步骤s3中所述未来状态预测奖励框架由未来状态预测网络和差分模块组成,未来状态预测网络的输入为t时刻的状态st和t时刻的动作at,输出为预测的下一个时刻的状态s′t+1,差分模块的输入为未来状态预测网络输出的s′t+1和t+1时刻的状态st+1,输出为差分奖励rc。
26、进一步地,步骤s4中所述竞争q网络包括评价网络q和目标网络qtarget,所述策略网络表示如下:
27、q(st,at)=at+vt
28、其中vt表示对状态st的评价,at表示在st下不同动作的评价。
29、进一步地,所述策略网络的训练过程包括:
30、s401、随机初始化评价网络q和目标网络qtarget的网络参数,θtarget复制θ的参数,初始化动态目标的轨迹以及无人艇的位置
31、s402、通过t时刻的雷达点云信息radart、无人艇与动态目标点的距离δdt、动态目标在无人艇的方位αt以及未来状态预测网络的预测状态s′t+1获得无人艇t时刻的状态值st={radart,δdt,αt,s't+1};
32、s403、将无人艇的状态值st输入到策略网络中,输出动作at,命令无人艇执行该动作值,返回执行该动作后的奖励值rt;
33、s404、通过t+1时刻的雷达点云信息radart+1、无人艇与动态目标点的距离δdt+1、动态目标点在无人艇的方位αt+1以及未来状态预测网络的预测状态s′t+2获得无人艇t+1时刻的状态值st+1={radart+1,δdt+1,αt+1,s't+2};
34、s405、将(st,at,rt,st+1)根据优先级储存在优先经验回放记忆池中;
35、s406、重复执行步骤s402-s405,直至获得一定数量样本;
36、s407、从优先经验回放记忆池中根据优先级抽取若干样本,用于更新评价网络q、目标网络qtarget和未来状态预测网络的网络参数;
37、s408、重复执行s402至s407,直至无人艇的平均成功率达到要求。
38、本发明还提供一种电子设备,包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于深度强化学习的无人艇动态目标捕捉方法中的任一步骤。
39、本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序经计算机处理器执行时实现上述基于深度强化学习的无人艇动态目标捕捉方法中的任一步骤。
40、与现有技术相比,本发明的有益效果如下:
41、1.现有技术有关无人艇目标捕捉算法中,大部分针对的是静态障碍物以及静态目标点,对于捕捉环境中的动态障碍物和动态目标点的效果较差。本发明通过设计未来状态预测奖励框架,可以让无人艇在当前时刻预测下一时刻所要面临的状态信息,包括动态障碍物的轨迹、动态目标的轨迹等等,进而提前为将要面临的未来状态做出决策和动作,有效规避动态障碍物并成功捕捉动态目标。
42、2.本发明的奖励函数由距离奖励、速度奖励、时间奖励以及差分奖励组成,距离奖励根据无人艇与动态目标之间的距离计算奖励,距离越短奖励越大;速度奖励根据无人艇朝向动态目标的移动速度计算奖励,速度越大奖励越大;时间奖励根据无人艇捕捉动态目标的总时间计算奖励,时间越长奖励越小;差分奖励根据未来状态预测网络预测出的未来状态与真实的状态的相似度计算奖励,相似度越低奖励越低。距离奖励、速度奖励、时间奖励可以从距离、速度和时间三个方面去约束策略网络的训练,差分奖励可以使未来状态预测网络的输出更接近真实的未来状态。
43、3.本发明设置了优先经验回放记忆池,通过优先级抽取样本,提高了网络的收敛速度,基于竞争q网络搭建策略网络,将对状态的评价和对动作的评价分离开,提高了策略网络的泛化能力。
本文地址:https://www.jishuxx.com/zhuanli/20240730/199397.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表