技术新讯 > 控制调节装置的制造及其应用技术 > 基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置与流程 > 正文

基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置与流程

国知局
2024-07-31 23:42:19

本发明涉及人工智能安全领域，尤其涉及一种基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置。

背景技术：

1、随着深度神经网络的发展，强化学习(reinforcement learning，rl)在现实世界中的应用也取得了巨大的成功，如推荐系统、自动驾驶和连续机器人控制。然而深度神经网络普遍存在的脆弱性已经引起了可信人工智能领域的广泛关注。具体来说，这个漏洞暴露了对强化学习智能体的重大威胁。现实世界中的一个例子是，基于强化学习的自动驾驶汽车可能会被恶意放置在道路上的油漆所迷惑，从而导致灾难性的后果。

2、最近的研究表明，鲁棒性-精度平衡的本质是最优标准和最优鲁棒性分类获得的特征的不同。一般来说，可以通过增加训练样本来提高模型的鲁棒性。在此基础上，对抗性训练可以通过数据扩充来增强模型对扰动的鲁邦特征性。然而，即使在无限数据的前提下，标准精度和鲁棒性之间的差距仍然存在，这违背了经典机器学习工具在数据充足情况下学习鲁棒模型的自然期望。与此同时，他也揭示了对抗性训练仍然极易受到其他类型的干扰。许多假设认为，对抗样本的存在时由于深度神经网络的极端非线性。更一般的说，以前在对抗攻击的方面的工作更倾向于将对抗样本视为输入空间中的高维属性或训练数据统计波动引起的失真。

3、深度强化学习智能体的脆弱性逐渐暴露出来，随后出现了几种抗扰动和训练鲁棒智能体的方法。比如通过训练一个对抗智能体，通过施加不稳定的因素来阻碍原始智能体。然而这些对抗性训练都需要两个以上的策略网络，并且强化学习任务通常很难训练，从而导致计算复杂性大大增加，并且不适用于一般的强化学习智能体。

4、本发明引入模仿学习，提出了一种基于自我策略恢复的自动驾驶决策模型安全性增强方法框架，它可以学习自动判别决策模型是否受到攻击，并且利用非游离状态进行对抗性训练，以提高自动驾驶模型的安全性。

技术实现思路

1、本发明的目的在于针对现有技术的不足，提供了一种基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置。

2、本发明的目的是通过以下技术方案来实现的：一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，包括以下步骤

3、(1)对自动驾驶决策模型mo进行预训练，得到目标策略πo；随后利用目标策略πo生成模仿策略πil，并构建模型学习模型mil；利用目标策略πo生成的状态-动作对作为专家数据对模型学习模型mil进行优化训练，得到优化后的模型学习模型m′il；

4、(2)利用fgsm攻击方法攻击优化后的模型学习模型m′il，生成对抗状态集

5、(3)对对抗状态集中每一个对抗状态样本的游离程度进行计算，将对抗状态集中的所有的非游离状态提取出来并组成对抗性训练样本集straining；

6、(4)利用对抗性训练样本集straining对自动驾驶决策模型mo进行重训练，实现对抗性训练，得到重训练模型mr，实现对自动驾驶决策模型mo的安全性增强。

7、进一步地，所述步骤(1)具体包括以下步骤：

8、(1.1)基于强化学习中的dqn算法对自动驾驶决策模型mo进行预训练，得到目标策略πo；

9、(1.2)提取序列状态动作对：根据目标策略πo生成t个时刻小车驾驶序列状态-动作对(state,action)：(state,action)＝{(s1,a1),(s2,a2),…,(st,at),(st+1,at+1),…,(st,at)}，其中，st表示t时刻的状态，at表示t时刻的动作；随后将小车驾驶序列状态-动作对(state,action)作为专家数据用于模仿学习以生成模仿策略πil，构建模型学习模型mil；

10、根据模型学习模型mil生成t个时刻小车驾驶序列状态-动作对(state′,action′)：(state′,action′)＝{(s′1,a′1),(s′2,a′2),…,(s′t,a′t),(s′t+1,a′t+1),…,(s′t,a′t)}，其中，s′t表示模型学习模型mil在t时刻生成的状态，a′t表示模型学习模型mil在t时刻生成的动作；

11、(1.3)模仿学习训练：在模仿策略的训练过程中，将模型学习模型mil生成的状态-动作对(state′,action′)输入到判别器d中，与目标策略πo生成的状态-动作对(state,action)进行对比，判别器d:s×a→(0,1)的输出作为奖励值用来指导模仿学习的策略学习，其中，s×a是判别器输入的状态动作对，(0,1)是判别器输出的结果区间；因此，模仿学习中的判别器损失函数可以表示为：

12、

13、其中，log d(st,at)表示判别器对状态-动作(st,at)的判断；log(1-d(s′t,a′t))表示判别器对状态-动作d(s′t,a′t)的判断；表示模仿策略πil的期望；表示目标策略πo的期望；

14、通过这样一个最大最小博弈过程，在当前环境中不断地去学习，通过当前环境动作对的差异性，更新目标网络参数，从而循环交替优化模型学习模型mil，得到优化后的模型学习模型m′il；训练过程中，通过梯度求导来最小化损失函数从而反向更新判别器和actor网络参数，损失函数如下：

15、

16、其中，为模仿策略πil的熵，由常数λ控制，λ≥0；πil(a′t|s′t)表示模仿策略πil在状态s′t上动作a′t的分布概率。

17、进一步地，所述步骤(2)具体包括以下子步骤：

18、(2.1)根据优化后的模型学习模型m′il生成t个时刻小车驾驶序列状态-动作对(state″,action″)：(state″,action″)＝{(s″1,a″1),(s″2,a″2),…,(s″t,a″t),(s″t+1,a″t+1),…,(s″t,a″t)}，其中，s″t表示优化后的模型学习模型m′il在t时刻生成的状态，a″t表示优化后的模型学习模型m′il在t时刻生成的动作；

19、(2.2)利用fgsm攻击方法攻击优化后的模型学习模型m′il生成的任意一个状态s″t，生成对应的对抗样本状态样本

20、

21、其中，π′il为优化后的模型学习模型m′il对应的模仿策略；g(s″t,π′il)为生成的噪声扰动；

22、重复上述步骤，得到对抗状态集

23、进一步地，所述步骤(3)具体为：

24、利用以下公式对对抗状态集中每一个对抗样本状态样本的游离程度进行计算；

25、

26、其中，表示针对对抗样本状态样本对应的任意一个动作；表示在对抗样本状态样本上动作的分布概率；表示动作的可能性；

27、若对抗样本状态样本的游离程度小于目标阈值thσ，则将该对抗样本状态样本设为游离状态，反正则设为非游离状态；

28、重复上述步骤，将对抗状态集中的所有的非游离状态提取出来并组成对抗性训练样本集straining。

29、进一步地，所述步骤(4)具体为：

30、(4.1)利用对抗性训练样本集straining对自动驾驶决策模型mo进行重训练，自动驾驶决策模型mo的损失函数如下：

31、

32、其中，t1为目标策略πo的训练轮数；t2为模仿策略π′il的训练轮数；τ1为根据目标策略πo得到的轨迹数据；τ2为根据模仿策略π′il得到的轨迹数据；表示第j个训练轮数中自动驾驶决策模型mo的价值函数；表示第j个训练轮数中优化后的模型学习模型m′il的价值函数；rτ1(j)表示目标策略πo在第j个训练轮数中的奖励值；表示模仿策略π′il在第j个训练轮数中的奖励值；θ为自动驾驶决策模型mo的参数集合；ω为优化后的模型学习模型m′il的参数集合；sj表示第j个训练轮数时从对抗性训练样本集straining随机选择的一个对抗性训练样本；

33、分别采样n1和n2个轨迹点，然后对损失函数进行策略梯度求导，对自动驾驶决策模型mo进行重训练，实现对抗性训练，得到重训练模型mr，实现对自动驾驶决策模型mo的安全性增强；

34、策略梯度求导过程具体：

35、

36、其中，表示自动驾驶决策模型mo在第j个训练轮数中第k个轨迹点生成的状态，表示自动驾驶决策模型mo在第j个训练轮数中第k个轨迹点生成的动作；表示优化后的模型学习模型m′il在第j个训练轮数中第k个轨迹点生成的状态，表示优化后的模型学习模型m′il在第j个训练轮数中第k个轨迹点生成的动作；

37、本发明还包括一种基于自我策略恢复的自动驾驶决策模型安全性增强装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于上述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法。

38、本发明还包括一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法。

39、本发明的有益效果是：与现有技术相比，本方法的初始目标模型为黑盒模型，即不需要知晓目标模型的模型结构，本方法利用模仿学习模仿目标自动驾驶决策模型的策略。利用对抗攻击技术对模仿学习策略进行攻击，生成对抗状态对；若检测到模型输入状态被攻击，本方法剥离游离动作-状态对，保存非游离动作-状态对，利用非游离动作-状态对实现原自动驾驶决策模型对抗性训练。从而实现黑盒模型下，自动驾驶决策模型鲁棒性提升。在本发明中，剥离游离动作对，不仅减少了对抗性输入对目标模型的干扰，而且在很大程度上减少了对抗性训练的代价。