技术新讯 > 车辆装置的制造及其改造技术 > 自动驾驶决策方法、装置、电子设备和存储介质与流程 > 正文

自动驾驶决策方法、装置、电子设备和存储介质与流程

国知局
2024-08-02 16:58:17

本技术涉及自动驾驶领域，具体而言，涉及一种自动驾驶决策方法、装置、电子设备和存储介质。

背景技术：

1、自动驾驶车辆的决策系统需要应对各种不同的环境和情境，与其他交通参与者进行交互，并考虑不确定性。当前，使用机器学习方法创建通用决策智能体具有吸引力，但学习型智能体的缺陷在于其通常提供黑箱解决方案，只输出给定情况下的决策。理想情况下，智能体还将提供其决策估计的不确定性，即认知不确定性。这是由于缺乏知识而产生的，可以通过增加数据的观察量来减小。例如，如果决策系统只被训练用于处理“正常”驾驶情况，那么面临超速驾驶者或事故时将会出现认知不确定性。

技术实现思路

1、本技术实施例的目的在于提供一种自动驾驶决策方法、装置、电子设备和存储介质，用于基于认知不确定性作出自动驾驶决策。

2、第一方面，本发明提供一种自动驾驶决策方法，所述方法包括：

3、获取输入数据；

4、将所述输入数据作为深度强化学习网络的输入，以使所述深度强化学习网络输出控制策略和所述控制策略的不确定性数值；

5、当所述控制策略的不确定性数值大于预设阈值时，执行所述控制策略，否则执行备份策略。

6、本技术第一方面的方法通过获取输入数据，进而能够将所述输入数据作为深度强化学习网络的输入，以使所述深度强化学习网络输出控制策略和所述控制策略的不确定性数值，进而当所述控制策略的不确定性数值大于预设阈值时，能够执行所述控制策略，否则执行备份策略，最终实现基于认知不确定性作出自动驾驶决策。

7、在可选的实施方式中，所述深度强化学习网络包括若干个集成成员，所述集成成员为组成所述深度强化学习网络的神经网络模型，所述集成成员用于基于动作价值函数输出在当前状态采取不同目标动作的动作价值，所述当前状态由所述输入数据确定，以及，所述方法还包括：

8、基于随机选取一个所述集成成员输出的动作价值确定所述控制策略；

9、获取所有所述集成成员输出的动作价值，并基于所有所述集成成员输出的动作价值计算动作价值平均值；

10、基于激活函数映射所述动作价值平均值得到所述不确定性数值。

11、本可选的实施方式能够基于随机选取一个所述集成成员输出的动作价值确定所述控制策略，进而通过获取所有所述集成成员输出的动作价值，并基于所有所述集成成员输出的动作价值计算动作价值平均值，能够基于激活函数映射所述动作价值平均值得到所述不确定性数值。

12、在可选的实施方式中，所述集成成员包括随机化先验函数，其中，所述随机化先验函数用于生成作为第一参数的先验函数参数；

13、以及，所述方法还包括：

14、获取所述集成成员基于所述先验函数参数输出的第一动作价值；

15、获取所述集成成员基于第二参数输出的第二动作价值；

16、基于所述第一动作价值和所述第二动作价值确定所述集成成员输出的动作价值。

17、本可选的实施方式通过获取所述集成成员基于所述先验函数参数输出的第一动作价值，进而能够获取所述集成成员基于第二参数输出的第二动作价值，从而能够基于所述第一动作价值和所述第二动作价值确定所述集成成员输出的动作价值。

18、在可选的实施方式中，所述方法还包括：

19、初始化所述先验函数参数，并为每个所述集成成员分配单独的经验回放缓冲区，其中，所述经验回放缓冲区用于存储所述集成成员在训练过程中获取的经验；

20、基于所述先验函数参数训练所述集成成员。

21、本可选的实施方式通过初始化所述先验函数参数，并为每个所述集成成员分配单独的经验回放缓冲区，其中，所述经验回放缓冲区用于存储所述集成成员在训练过程中获取的经验，进而能够基于所述先验函数参数训练所述集成成员。

22、在可选的实施方式中，所述方法还包括：

23、基于所述当前状态和所述控制策略预测所述当前状态的下一时刻状态，其中，所述当前状态与所述下一时刻状态之间的相互作用通过多头注意力结构学习得到。

24、本可选的实施方式能够基于所述当前状态和所述控制策略预测所述当前状态的下一时刻状态，其中，所述当前状态与所述下一时刻状态之间的相互作用通过多头注意力结构学习得到。

25、在可选的实施方式中，所述方法还包括：

26、当由所述输入数据确定的当前状态表示车辆处于需要在交叉口之前停下来的情况时，所述备份策略为执行停止动作，否则所述备份策略为系统默认策略，其中，所述系统默认策略不执行停止动作。

27、本可选的实施方式能够在由所述输入数据确定的当前状态表示车辆处于需要在交叉口之前停下来的情况时，将所述备份策略设置为执行停止动作，否则所述备份策略为系统默认策略，其中，所述系统默认策略不执行停止动作。

28、在可选的实施方式中，所述输入数据包括传感器数据、车辆状态数据和地图数据，其中，所述传感器数据包括摄像头数据、激光雷达数据、雷达数据和gps数据，所述车辆状态数据包括车辆速度、加速度和转向角，所述地图数据包括路线规划数据、道路信息数据和交通信号数据。

29、本可选的实施方式能够将传感器数据、车辆状态数据和地图数据作为输入数据。

30、第二方面，本发明提供一种自动驾驶决策装置，所述装置包括：

31、获取模块，用于获取输入数据；

32、输出模块，用于将所述输入数据作为深度强化学习网络的输入，以使所述深度强化学习网络输出控制策略和所述控制策略的不确定性数值；

33、控制模块，用于当所述控制策略的不确定性数值大于预设阈值时，执行所述控制策略，否则执行备份策略。

34、本技术第二方面的装置通过获取输入数据，进而能够将所述输入数据作为深度强化学习网络的输入，以使所述深度强化学习网络输出控制策略和所述控制策略的不确定性数值，进而当所述控制策略的不确定性数值大于预设阈值时，能够执行所述控制策略，否则执行备份策略，最终实现基于认知不确定性作出自动驾驶决策。

35、第三方面，本发明提供一种电子设备，包括：

36、处理器；以及

37、存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行如前述实施方式任一项所述的自动驾驶决策方法。

38、本技术第三方面的装置通过执行自动驾驶决策方法，进而能够通过获取输入数据，进而能够将所述输入数据作为深度强化学习网络的输入，以使所述深度强化学习网络输出控制策略和所述控制策略的不确定性数值，进而当所述控制策略的不确定性数值大于预设阈值时，能够执行所述控制策略，否则执行备份策略，最终实现基于认知不确定性作出自动驾驶决策。

39、第四方面，本发明提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行如前述实施方式任一项所述的自动驾驶决策方法。

40、本技术第四方面的存储介质通过执行自动驾驶决策方法，进而能够通过获取输入数据，进而能够将所述输入数据作为深度强化学习网络的输入，以使所述深度强化学习网络输出控制策略和所述控制策略的不确定性数值，进而当所述控制策略的不确定性数值大于预设阈值时，能够执行所述控制策略，否则执行备份策略，最终实现基于认知不确定性作出自动驾驶决策。