技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于深度强化学习的无人船动力定位控制方法 > 正文

一种基于深度强化学习的无人船动力定位控制方法

国知局
2024-07-30 09:22:56

本发明属于无人船动力定位，具体涉及一种基于深度强化学习的无人船动力定位控制方法。

背景技术：

1、无人船作为一种无人化、智能化的运载平台，具有高机动性、低风险性、低成本等特点，在军用与民用领域应用广泛。船舶动力定位系统通过控制推进器使船舶保持设定的位置和艏向，无人船借助该系统可实现自动靠泊，对无人船实现全自主化具有重要的意义。然而，由于船舶和推进器的非线性特性以及运动控制器输出和推力分配之间存在误差，同时船舶还受风、浪、流等环境影响，给船舶实现精确定位控制带来很大困难。

2、动力定位控制通常采用分开设计的方法，分为状态估计、运动控制器和推力分配三个部分。状态估计根据位置传感器的测量值滤除船舶的高频运动，运动控制器根据状态估计器的输出值计算所需的推力，推力分配对运动控制器的输出进行优化得到各推进器的指令，使无人船保持在所设定的位置和艏向。

3、论文《船舶动力定位系统pid控制器优化及程序设计》基于遗传算法对特定海况条件下的pid控制器参数进行优化训练以提高动力定位系统的定位能力，推进器控制原则可以减小推进器的磨损,使推力分配算法获得更平缓的推力、方位角,降低系统耗能，但两者分开设计导致运动控制器的控制力与推力分配产生的力不匹配。

4、中国专利cn202310774961.7提出了一种基于改进多目标粒子群算法的船舶动力定位系统推力分配方法，建立包含多个独立优化目标的目标函数，将改进的多目标粒子群优化算法引入到多目标推力分配优化问题的求解中，能够在考虑全局性和灵活性情况下、获取更可靠的和最优的推力分配结果，但运动控制器与推力分配的分开设计导致推进器的响应速度较慢，在设计运动控制器时所期望的控制力是即时可实现的，而实际上存在延迟。

5、目前，尚缺乏一种误差小，计算简单的，定位精准的，尤其是响应速度快且推进器功率消耗少的无人船动力定位控制方法。

技术实现思路

1、针对上述技术问题，本发明的目的在于提供一种基于强化学习的无人船动力定位控制方法，将运动控制器和推力分配作为一个整体来考虑，利用强化学习预先计算的控制律的优势，学习船舶和推进器的非线性动力学，同时规避建模的不准确性和计算复杂性，直接优化推进器命令以消除运动控制器与推力分配之间的误差。该方法不依赖先验知识和精确的数学模型，不需要复杂计算，适合应用不确定性环境，同时具备自学习能力，具有响应速度快、鲁棒性强和定位精度高并且可最小化推进器的功耗等优点。

2、为实现上述目的，本发明采用如下设计方案。

3、第一方面，本发明提供一种基于深度强化学习的无人船动力定位控制方法，其特征在于，包括如下步骤：

4、s1：构建强化学习环境，包括无人船运动与动力学数学模型以及环境扰动模型；

5、s2：将无人船作为智能体，建立马尔科夫过程模型，设置无人船动力定位的状态空间、动作空间并设计奖励函数；

6、s3：在sac算法的基础上，引入优先经验回放机制，得到基于优先经验回放的多评论家per-sac_3critics算法；

7、s4：设置训练环境，利用per-sac_3critics算法训练智能体，将每一时间步的状态、动作、获得的奖励以及下一时刻的状态作为标签数据存入经验池，得到神经网络模型最优参数；

8、s5：设置期望的动力定位位姿点，利用神经网络模型测试所述动力定位控制器是否能在干扰环境下通过输入状态信息，输出船舶推进器指令引导无人船在干扰环境下完成动力定位任务。

9、第二方面，本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述无人船动力定位控制方法。

10、第三方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述无人船动力定位控制方法。

11、第四方面，本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述无人船动力定位控制方法。

12、与现有技术相比，本发明具有以下有益效果：本发明通过强化学习训练得到动力定位控制器实现动力定位的方法，将运动控制器和推力分配作为一个整体来考虑，利用强化学习预先计算的控制律的优势，学习船舶和推进器的非线性动力学，同时规避建模的不准确性和计算复杂性，直接优化推进器命令以消除运动控制器与推力分配之间的误差。其不依赖先验知识和精确的数学模型，不需要复杂计算，适合应用不确定性环境，同时具备自学习能力，增强无人船精准定点定位的能力，提高响应速度同时减小了推进器的功率消耗。

技术特征：

1.一种基于深度强化学习的无人船动力定位控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的无人船动力定位控制方法，其特征在于，所述步骤s1中，无人船运动与动力学数学模型如下：

3.根据权利要求1所述的基于深度强化学习的无人船动力定位控制方法，其特征在于，所述步骤s1中，环境干扰模型如下：

4.根据权利要求1所述的基于深度强化学习的无人船动力定位控制方法，其特征在于，所述步骤s2包括以下子步骤：

5.根据权利要求1所述的基于深度强化学习的无人船动力定位控制方法，其特征在于，所述步骤25中，

6.根据权利要求1所述的基于深度强化学习的无人船动力定位控制方法，其特征在于，所述步骤3中，多评论家per-sac_3critics算法的构建方法为：在sac算法的基础上，改进评论家网络至三个，以提高模型控制精度，并引入优先经验回放机制，将每条样本的td误差作为衡量每个样本重要性的标准，利用优先级采样方式采样高重要性样本作为历史数据回放至目标评论家网络。

7.根据权利要求1所述的基于深度强化学习的无人船动力定位控制方法，其特征在于，所述步骤4包括以下子步骤：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述无人船动力定位控制方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述无人船动力定位控制方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述无人船动力定位控制方法。

技术总结本发明公开了一种基于深度强化学习的无人船动力定位控制方法，包括以下步骤：S1，构建强化学习环境；S2，将无人船作为智能体，建立马尔科夫过程模型，设置无人船动力定位的状态空间、动作空间并设计奖励函数；S3，引入优先经验回放机制并增加评论家网络层数，得到PER‑SAC_3Critics算法；S4，设置训练环境，利用PER‑SAC_3Critics算法训练智能体，得到神经网络模型最优参数；S5，利用训练好的神经网络模型引导无人船在干扰环境下完成动力定位任务。本发明将无人船动力定位控制与强化学习中SAC算法相结合通过对算法的改进，提高了智能体的训练速度、收敛速度和对经验样本的利用效率，实现无人船在环境干扰下稳定、快速、准确、高效的完成动力定位任务。技术研发人员：袁伟,刘沈泉,齐亮,杨奕飞,苏贞受保护的技术使用者：江苏科技大学技术研发日：技术公布日：2024/7/23