技术新讯 > 控制调节装置的制造及其应用技术 > 基于改进SAC算法的无人矿车自适应轨迹跟踪控制方法 > 正文

基于改进SAC算法的无人矿车自适应轨迹跟踪控制方法

国知局
2024-08-01 00:09:30

本发明涉及无人车控制，尤其涉及一种基于改进sac算法的无人矿车自适应轨迹跟踪控制方法。

背景技术：

1、目前无人驾驶技术飞速发展，在物流运输、军事、农业等多个领域均有较好的尝试。矿区运输作业环境恶劣，工作形式单一，招工难是行业普遍现象，并且存在塌方等事故风险。而矿区具有环境封闭，路线固定的特点，是无人驾驶落地应用的绝佳场景。同时无人驾驶技术也是解决上述招工与安全问题的最优方法。

2、现有的无人驾驶可分为感知、决策规划、控制等技术环节，其中控制层接收决策规划目标轨迹信息后，需计算出合理的横纵向控制量(方向盘转角、踏板开度)，控制车辆按照预期轨迹行驶。在矿区无人驾驶作业场景中，矿区道路弯多曲率大，曲率变化快，对控制算法的控制精度提出了更高要求。此外矿区车型多，控制特性一致性差，也对控制算法稳定性提出了更高要求。因此，目前无人驾驶技术在矿区落地应用面临着严峻的技术挑战。

3、然而现有主流的无人车控制方法包括无模型方法、基于模型方法和神经网络方法等，均不能有效解决无人矿车轨迹跟踪控制面临的问题。其中无模型方法有pid、模糊控制等，该方案依赖人工经验，难以满足多目标车型以及不同道路曲率的需要。而基于模型的方法有基于几何模型的斯坦利、纯跟踪，基于运动学、动力学模型的lqr、mpc等，因为无人矿车难以用通用的精准模型表征，该算法的控制精度难以达到预期。基于强化学习的神经网络控制也是近年来兴起的控制方法，但因其黑盒特性与不可解释性还未得到大规模的应用，不过神经网络非线性特征以及可实时调整参数特性还是为控制领域提供了可行的研究思路。

4、公开号为cn114721398a，发明名称为《一种基于参数自学习的无人车轨迹跟踪控制方法》的中国发明专利，提供了一种基于优化求解的参数学习方法，在仿真环境建立车辆预测模型，搭建初始求解框架，根据人工驾驶数据优化仿真场景下的成本函数，相较传统方案，其控制效果更符合人类驾驶特性。但从优化问题求解过程看，控制效果除依赖成本函数外，还依赖模型本身的控制精度，该发明并未针对矿区特有大曲率路径进行改进优化，同时所求解出的控制策略并不能很好解决无人矿车非线性控制问题，难以满足矿区连续大曲率变化路径。

5、公开号为cn115771523a，发明名称为《一种矿区无人车轨迹跟踪控制方法》中国发明专利，提供了一种减小轨迹跟踪差值的上游处理方案，即在人工驾驶路径基础上，将自动驾驶车辆跟踪的实际路径作为目标参考路径，能有效减小人工驾驶与自动驾驶的差异，但该方案默认矿区为同一车型，且相同车型控制响应特性不存在差异，因此对于不同车型适配以及相同车型控制特征改变后，该方法不具备自适应能力，难以满足矿区多车型自适应控制需要。

技术实现思路

1、针对现有技术中的不足，本发明提出了一种基于改进sac的无人矿车自适应轨迹跟踪控制方法，通过改进sac算法学习到的非线性控制策略，使其符合矿区不同曲率条件下的控制需要，解决算法对矿区连续大曲率道路的适配问题。通过自适应算法对车辆与目标路径偏离值进行计算，根据实车具体偏离值自适应计算应有的纠偏补偿，调整输出，解决多车型适配问题。

2、本发明的技术方案具体如下：

3、一种基于改进sac的无人矿车自适应轨迹跟踪控制方法，包括以下步骤：

4、步骤s1、状态动作设计

5、利用综合预瞄跟踪模型进行状态动作设计，获得状态输入st和控制输出at；

6、步骤s2、控制算法训练

7、采用sac算法，设计奖励函数、动作损失函数和价值损失函数，通过经验回放对轨迹跟踪控制网络完成训练；

8、步骤s3、自适应纠偏

9、将步骤s2得到的轨迹跟踪控制网络部署至车辆，根据车辆实时状态输入生成控制输出，通过自适应算法进行纠偏补偿后，传递至车端，实现轨迹跟踪。

10、优选的，所述步骤s1中的状态输入包括跟踪误差、当前误差和当前运动信息。

11、优选的，所述步骤s1中的控制输出包括横向控制量δ和纵向控制量τ。

12、优选的，所述跟踪误差包括综合横向偏差ep和综合纵向误差vp，计算公式分别为：

13、

14、

15、其中，vl表示当前车速，tp表示预测时间，ft(x)表示路径最近点前10m与后30m在车体坐标系下通过五次多项式拟合的曲线，fp(x)表示车辆预测轨迹，k(x)＝e-x表示权重函数，k表示车辆当前位置点与所有目标路径点距离的最小值对应的路径点，p表示预测时间下目标路径对应预测点，kp表示路径距离，n为最近点对应索引，p为预测点对应索引，vdi表示路径点索引值为i时对应的期望车速。

16、优选的，所述当前误差包括当前横向偏差ed和当前纵向误差ve，计算公式分别为：

17、

18、

19、其中，l1表示车辆当前点nn与路径最近点kn之间的距离，l2表示车辆当前点nn与路径最近点下一点kn+1之间的距离，l3表示路径最近点kn与路径最近点下一点kn+1之间的距离，sn＝(l1+l2+l3)/2，表示路径最近点速度，表示车辆当前速度滤波后的结果

20、优选的，所述当前运动信息包括滤波处理后的横摆角度当前车速纵向加速度以及侧向加速度

21、优选的，所述步骤s2中的奖励函数rtrack的表达式如下：

22、rtrack＝kcrlat+(1-kc)rlon+rother

23、其中，kc表示横纵向权重，rlat表示横向控制奖励，rlon为纵向控制奖励，rother表示其他奖励。

24、优选的，所述步骤s2中的动作损失函数的表达式如下：

25、

26、其中，m表示每次输入神经网络训练的样本数量,yj表示为logπφ(at|st)，表示序号j样本的动作熵，qθsoft(st,at)j表示序号j样本在对应t时刻的动作价值，α为动作更新权重。

27、优选的，所述步骤s2中的价值损失函数的表达式如下：

28、

29、其中，表示t+1时刻状态价值，表示对中括号内符合d分布的(st,at)求期望，γ表示折扣因子，表示对中括号内符合p分布的(st+1)求期望，r(st,at)表示t时刻状态动作奖励，λ表示奖励变化量权重，为0时上式与传统sac算法公式一致，r(st-1,at-1)表示t-1时刻状态动作奖励。

30、优选的，所述步骤s3中自适应算法进行纠偏补偿具体通过增加纠偏量实现，即：

31、

32、其中，表示预测点i的正预测偏差的权重，表示预测点i的负预测偏差的权重。

33、相比于现有技术，本发明的有益效果在于：

34、1.本发明提出的基于改进sac的无人矿车自适应轨迹跟踪控制方法，可与矿区真实轨迹相对应，同时可快速训练快速部署，在车端还能根据跟踪误差自适应校准输出。相较目前主流的轨迹跟踪控制算法，其与矿区道路更为匹配、控制精度更高、适应能力更强，能有效解决现有控制算法主要问题。

35、2.本发明提出的基于改进sac的无人矿车自适应轨迹跟踪控制方法，设计了考虑自车预测轨迹的自适应预瞄方法，并将其与强化学习结合作为状态输入。通过自车预测轨迹与目标轨迹，利用最优预瞄模型计算横纵向综合跟踪误差，同考虑自车状态信息与当前误差信息，将多元信息解算为适合强化学习网络输入的状态，简化神经网络信息处理流程。相较直接将多元信息输入的强化学习算法，训练效率得到明显提升。

36、3.本发明对强化学习sac算法进行了针对性改进，一方面在奖励函数时引入奖励变化量，在不影响sac最大熵探索性能的情况下提高强化学习收敛速度。另一方面输出的随机性动作进行探索限制，在达到一定回合后最大熵与随机动作将不再起作用，网络训练过程将转变为与ddpg类似的确定性策略梯度更新过程，减小网络本身输出的随机扰动对控制精度的影响，在原sac控制算法的基础上进一步提升控制精度。

37、4.本发明针对强化学习控制算法实车适应性问题，提出了在线自适应算法，每周期利用运动学模型对状态进行迭代计算预测点，通过预测点横向偏差得到综合纠偏量，用于校正实际的跟踪误差，其纠偏控制量由当前跟踪状态计算，实现在线自适应纠偏，提升轨迹跟踪控制算法对不同车型的适应性能，有利于控制算法多车型快速部署。