技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于SAC强化学习算法的智能运动控制方法 > 正文

一种基于SAC强化学习算法的智能运动控制方法

国知局
2024-08-01 00:13:29

本发明属于安全巡逻，尤其涉及一种基于sac强化学习算法的智能运动控制方法。

背景技术：

1、传统的安全巡逻方法通常涉及到人员巡逻、固定监控设备、自主巡逻机器人。人员巡逻通常采用步行、车辆等形式，以覆盖特定区域。而固定监控设备包括固定式摄像头、传感器等，安装在特定位置以监测环境。现有的自主巡逻机器人通常采用机械结构，包括轮式或足式结构，以实现移动。它们通常配备多种传感器，如激光雷达、摄像头、红外线传感器等，用于感知环境、识别障碍物和收集数据。控制系统负责处理传感器数据，执行路径规划和决策。实时安全的监控设备多种多样，包括固定式的摄像头、移动设备上的监控，或者无人机等。这些设备通常包括摄像头、传感器、处理器和网络连接等组件。它们的功能主要包括实时视频监控、环境传感、异常识别等，能够帮助监控人员及时发现和响应安全问题。

2、然而，现有的视频监控技术难以实现准确的报警。自动监控系统由于报警阈值设定可能产生漏报或误报。而依赖于人员值守的监控系统通常被用于事件发生后回溯查看，难以实现实时的报警功能。

3、强化学习主要流程包括状态感知、行动选择和奖励反馈，常被应用于运动控制领域。智能体根据当前环境状态选择行动，并根据行动结果获得奖励或惩罚。通过不断的试错学习优化策略，实现自主控制和任务执行。

4、综上所述，尽管现有技术在安全巡逻和实时监控领域已经取得了一定的进展，但仍存在诸多局限性，如巡逻路线的固定性、监控设备的有限适应性和自主性等，无法应对突发情况和复杂任务环境。为此本发明提出一种基于sac强化学习算法的智能运动控制方法。

技术实现思路

1、本发明的目的在于提供一种基于sac强化学习算法的智能运动控制方法，旨在解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：

3、一种基于sac强化学习算法的智能运动控制方法，包括以下步骤：

4、步骤s1、定义状态空间和动作空间；

5、步骤s2、数据收集与预训练；

6、步骤s3、构建强化学习模型并对模型进行训练；

7、步骤s4、智能巡逻与异常检测。

8、进一步的，所述步骤s2的具体操作为：由人工操控车辆在不同环境和轨迹下间隔0.05秒收集运动数据，即经验，并根据奖励函数计算奖励值，将经验加入回放缓冲区用于模型的前期训练。

9、进一步的，所述奖励函数如下：

10、；

11、；

12、；

13、=；

14、其中，为最终奖励函数；为引导智能体完成巡逻等运动控制任务的奖励项，中、分别为智能体在当前时刻的横纵坐标，、分别为终点的横纵坐标；为智能体发现异常场景的奖励项；为预防智能体自身处于特殊状态下的惩罚项，其中代表加速度的绝对值，是车辆与周围障碍物的距离，是速度；、中 i( )是指示函数，括号内为判断条件，指示函数取值为0（判断条件不成立）或1（成立）。

15、进一步的，所述步骤s3中，强化学习训练模型包括评论家网络和行动者网络，行动者网络根据输入的状态给出动作决策，评论家网络根据对动作决策打分来指导行动者网络迭代改进；评论家网络和行动者网络均采用具有双隐藏层的全连接网络，隐藏层含有256个神经单元，每个单元使用relu激活函数；其中包括：

16、评论家网络的输入维度是状态信息维度加上动作维度，输出维度是1；评论家网络输入状态信息、决策动作，经过全连接层后，输出状态价值；

17、行动者网络的输入维度是状态信息维度，输出维度是2；行动者网络输入状态信息，经过全连接层后，输出均值 μ和方差 σ，然后通过采样得到决策动作 a ~ n( μ, σ)，其中 n是高斯分布。

18、进一步的，所述步骤s3中，强化学习模型的更新过程如下：

19、步骤s31：初始化空的回放缓冲区 b，初始化智能体起点坐标 ( x 0， y 0)，终点坐标( x g， y g)；

20、步骤s32、初始化评论家网络，和行动者网络；

21、步骤s33、根据 ←，i = 1, 2初始化目标评论家网络；

22、步骤s34、for 1 to t；之后的步骤重复执行训练时间步数 t次；

23、步骤s35、在状态 s t执行动作 a ~ ，计算奖励 r t并得到环境中的下一个状态 s t+1；

24、步骤s36、将经验样本 ( s t， a t， s t+1， r t) 存储到回放缓冲区 b中；

25、步骤s37、从回放缓冲区随机采样 n个经验样本用于神经网络训练和模型参数更新；

26、步骤s38、end，结束步骤s34中for循环语句。

27、进一步的，所述步骤s37的具体过程如下：

28、步骤s371、计算目标值：

29、；

30、其中，为由环境返回的立即奖励，为折扣因子，为评论家目标网络输出的值， s为下一个时刻状态， a为行动者网络根据状态给出的动作决策；

31、步骤s372、更新评论家网络：

32、；

33、其中，为第 i个评论家网络参数，为从经验回放缓冲区采样的批量大小，为第 i个评论家网络的预测值；为目标值；

34、步骤s373、更新行动者网络：

35、；

36、其中，为采样批量大小，为第 i个评论家网络预测的值，为衰减因子，为行动者网络，为参数； a为动作；为当前状态；

37、步骤s374、更新目标网络：

38、 ← ；

39、其中，为第 i个目标网络参数，为平滑更新系数，为第 i个评论家网络参数。

40、进一步的，所述步骤s1中，状态空间包括多个状态变量，具体包括起点坐标、当前坐标、终点坐标以及周围环境信息；动作空间包括转向角度和施加在车辆上的加速度。

41、与现有技术相比，本发明的有益效果是：

42、1、自主性和智能化：本发明利用强化学习算法实现智能运动控制技术，使得移动设备具备了自主巡逻的能力。只需设定巡逻点，智能体即可根据环境变化实时调整巡逻路线。

43、2、灵活性和适应性：相比传统的监控设备或巡逻方法，本发明不受固定监控范围或巡逻路线的限制，能够根据不同环境和任务需求进行灵活调整，实时做出路径决策。

44、3、降低人力成本：与人员巡逻相比，本发明基于智能移动设备，可实现7x24小时连续工作，减少了人力成本。同时避免了主观判断所带来的偏差，提高了监控的准确性和可靠性。

45、4、及时响应和报警功能：本发明利用多种传感器和实时监测设备，能够及时发现异常情况并自动报警。并且能够记录或实时传输数据，为安全管理和决策提供科学依据和参考。

标签：算法智能方法技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240730/200086.html

上一篇
一种基于MQTT协议的智能家居高效协同控制方法与流程

下一篇
返回列表

一种基于SAC强化学习算法的智能运动控制方法

相关技术

最新技术

技术分类