技术新讯 > 控制调节装置的制造及其应用技术 > 自动驾驶决策控制方法、装置、系统、设备及存储介质与流程 > 正文

自动驾驶决策控制方法、装置、系统、设备及存储介质与流程

国知局
2024-08-01 00:22:27

本发明涉及自动驾驶，特别是涉及自动驾驶决策控制方法、装置、系统、设备及存储介质。

背景技术：

1、自动驾驶技术是一个集环境感知、决策规划、控制执行等门类于一体的技术领域。在当前交通运输领域，让车辆能够脱离人为控制，实现自动安全行驶，从而提高道路交通智能化水平，是自动驾驶技术的研究目标。

2、近年来，通过机器学习方法，如强化学习方法，为自动驾驶的决策提供解决路径的方案被不断推出。应用强化学习算法虽然能够在一定程度上实现自动驾驶的目标，但由于模型优化的方向主要依赖于环境反馈信息，相同的模型在不同环境和场景下的表现可能存在显著差异，导致其泛化能力受限，进而使得在将训练好的自动驾驶决策模型迁移到应用环境时，其在训练环境中的表现却难以直接迁移到应用环境中。

3、提高自动驾驶决策模型的泛化能力，使自动驾驶方案在应用环境中发挥实际应用价值，是本领域技术人员需要解决的技术问题。

技术实现思路

1、本发明的目的是提供一种自动驾驶决策控制方法、装置、系统、设备及存储介质，用于提高自动驾驶决策模型的模型泛化能力。

2、为解决上述技术问题，本发明提供一种自动驾驶决策控制方法，包括：

3、获取自动驾驶决策模型；

4、利用所述自动驾驶决策模型控制目标车辆运动，并根据所述目标车辆与驾驶环境的交互过程对所述自动驾驶决策模型进行优化，在优化过程中，自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本，对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本，利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整；

5、在达到模型优化结束条件后，得到优化后的自动驾驶决策模型；

6、利用所述优化后的自动驾驶决策模型进行车辆驾驶控制。

7、一方面，自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本，包括：

8、根据车辆驾驶操作类型、车辆运动状态参数、车辆故障信息检测结果、车辆行驶轨迹、驾驶环境数据中至少一项对所述第一实车驾驶样本进行风险分析，提取符合风险评估条件的所述车辆风险驾驶数据作为所述风险驾驶样本。

9、另一方面，根据所述车辆驾驶操作类型对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据，包括：

10、若满足急加速操作的频次高于急加速操作数量阈值、急刹车操作的频次高于急刹车操作数量阈值、急转向操作的频次高于急转向操作数量阈值中至少一个条件，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。

11、另一方面，根据所述车辆运动状态参数对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据，包括：

12、若满足车辆运行速率大于第一速率阈值的时间超出第一超速阈值、所述车辆运行速率大于第二速率阈值中至少一个条件，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据；

13、其中，所述第一速率阈值小于所述第二速率阈值。

14、另一方面，根据所述车辆故障信息检测结果对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据，包括：

15、访问车载自动诊断接口获取所述车辆故障信息检测结果；

16、若所述车辆故障信息检测结果中存在车辆故障事件，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。

17、另一方面，根据所述车辆行驶轨迹对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据，包括：

18、通过车载定位模块获取所述车辆行驶轨迹；

19、检测所述车辆行驶轨迹的轨迹平滑度以及所述车辆行驶轨迹与非行驶区域的重叠情况；

20、若满足所述车辆行驶轨迹的轨迹平滑度不满足轨迹平滑条件、所述车辆行驶轨迹中位于所述非行驶区域的路径点的数量达到重叠阈值中至少一个条件，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。

21、另一方面，根据所述驾驶环境数据对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据，包括：

22、获取天气状况参数、道路状况参数、交通流量参数和交通密度参数中至少一种所述驾驶环境数据；

23、若所述天气状况参数为风险天气类型，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据；

24、若满足所述道路状况参数中的道路平整度不满足平整度条件、所述道路状况参数中的障碍物指标满足障碍物阈值、所述道路状况参数中存在施工环境参数中至少一个条件，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据；

25、若满足所述交通流量参数大于交通流量阈值、所述交通密度参数大于交通密度阈值中至少一个条件，则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。

26、另一方面，采集所述第一实车驾驶样本，包括：

27、利用驾驶状态编码模块对采集到的当前时刻的车辆驾驶状态感知数据进行编码得到当前时刻的驾驶状态参数输入所述自动驾驶决策模型；

28、利用所述自动驾驶决策模型根据当前时刻的驾驶状态参数选取驾驶动作参数，并利用选取的驾驶动作参数驱动车辆运动；

29、在驱动所述目标车辆运动与驾驶环境交互的过程中，收集环境反馈信息以计算得到环境奖励参数；

30、利用所述驾驶状态编码模块对采集到的下一时刻的车辆驾驶状态感知数据进行编码得到下一时刻的驾驶状态参数；

31、以一组当前时刻的驾驶状态参数、驾驶动作参数、环境奖励参数和下一时刻的驾驶状态参数构建一个所述第一实车驾驶样本。

32、另一方面，利用所述驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行编码得到驾驶状态参数，包括：

33、利用预训练的所述驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。

34、另一方面，所述驾驶状态编码模块的预训练步骤包括：

35、获取车辆驾驶数据；

36、自所述车辆驾驶数据中提取车辆状态信息和环境状态信息以构建多模态状态感知数据，得到驾驶状态数据集；

37、采用对称卷积神经网络结构搭建驾驶状态编码网络和驾驶状态解码网络；

38、自所述驾驶状态数据集中抽取编码器训练样本训练所述驾驶状态编码网络和所述驾驶状态解码网络，在训练过程中，将所述编码器训练样本输入所述驾驶状态编码网络以提取所述编码器训练样本的样本数据分布，自所述编码器训练样本的样本数据分布中采样得到样本分布特征编码，将所述样本分布特征编码输入所述驾驶状态解码网络以输出重建样本，以最大化所述重建样本和对应的所述编码器训练样本的似然性以及最小化所述编码器训练样本的潜在表示分布与标准正态分布的相对熵为训练目标，对所述驾驶状态编码网络和所述驾驶状态解码网络进行损失优化训练；

39、在达到驾驶状态编码模块训练结束条件后，得到所述驾驶状态编码模块。

40、另一方面，所述驾驶状态编码模块的训练损失函数为：

41、

42、；

43、其中，为所述驾驶状态编码模块的训练损失函数，为所述驾驶状态编码网络的参数，为所述驾驶状态解码网络的参数，为所述编码器训练样本，为所述编码器训练样本的数量，为所述编码器训练样本的样本数据分布，为标准正态分布，为编码器训练样本的样本数据分布与标准正态分布之间的kl散度， m为自所述标准正态分布中抽取的分布变量的个数，为所述重建样本，为所述编码器训练样本，为二范数计算的平方，为第 n个所述编码器训练样本的方差，为第 n个所述编码器训练样本的均值。

44、另一方面，对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本，包括：

45、利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本。

46、另一方面，所述第一实车驾驶样本中的驾驶状态参数的采集步骤包括：

47、在所述目标车辆与所述驾驶环境的交互过程中，采集所述目标车辆的车辆状态信息和所述驾驶环境的环境状态信息，得到多模态状态感知数据；

48、利用预训练的驾驶状态编码模块对多模态状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。

49、另一方面，所述扩散模型的训练步骤包括：

50、对去噪器网络进行迭代训练，在每次迭代中，自所述风险驾驶样本中抽取去噪训练样本，按照预设的噪声水平调度对所述去噪训练样本添加噪声，得到带噪样本，采用所述去噪器网络对所述带噪样本进行去噪处理，得到去噪样本，利用所述去噪样本与对应的所述去噪训练样本的误差计算所述去噪器网络的差异损失值并进行反向传播以更新所述去噪器网络的模型参数；

51、当满足去噪器迭代结束条件后，得到所述扩散模型。

52、另一方面，所述扩散模型的训练步骤包括：

53、初始化去噪器网络的网络参数；

54、根据所述风险驾驶样本构成的去噪样本数据集计算分布标准差；

55、自所述去噪样本数据集随机抽取小批量去噪训练样本；

56、基于对数正态分布设置噪声，根据对去噪训练样本进行加噪处理，得到带噪样本；

57、根据，采用所述去噪器网络对带噪样本进行去噪处理；其中，为所述去噪器网络输出的第 i个所述去噪样本；

58、根据计算所述去噪样本和对应的所述去噪训练样本之间的差异损失值；

59、利用反向传播法更新所述去噪器网络的网络参数以减小所述差异损失值；

60、重复上述步骤直至达到去噪器迭代结束条件，得到所述扩散模型；

61、其中，为所述去噪训练样本的数量，为第 i个所述去噪训练样本，为第 i个所述带噪样本，为第 i个所述去噪样本，为噪声，为所述去噪样本数据集的分布标准差，为噪声分布标准差，为所述去噪样本和对应的所述去噪训练样本之间的差异损失值，为所述去噪样本， x为所述去噪训练样本，e[·]为差异损失计算，为二范数计算的平方。

62、另一方面，所述利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本，包括：

63、根据下式设置噪声水平调度和采样系数：

64、；

65、；

66、基于噪声水平采样生成随机噪声样本作为初始输入；

67、根据和，对于任意第 t次迭代过程中的噪声样本，以噪声样本为中心进行随机采样；其中，为随机噪声；

68、利用所述扩散模型根据计算第 t次迭代过程的去噪得分值；

69、根据计算下一迭代步的噪声样本；其中，若，则；

70、若，则根据计算第 t+1次迭代过程的去噪得分值；

71、若达到采样结束条件，则确定所述合成风险驾驶样本生成结束，输出所述合成风险驾驶样本；

72、若未达到所述采样结束条件，则返回所述对于任意第 t次迭代过程中的噪声样本，以噪声样本为中心进行随机采样的步骤；

73、其中，为所述扩散模型的第 t次迭代过程的噪声水平调度，为噪声水平调度的控制系数，为最大噪声水平的分布标准差，为最小噪声水平的分布标准差；

74、为所述扩散模型的第 t次迭代过程的采样系数，为预设扩散采样步数，，为噪声采样幅度，为噪声水平下限，为噪声水平上限；

75、、、均为随机采样系数，且；

76、为第 t次迭代过程的采样噪声，为第 t次迭代过程输入的噪声样本，为以噪声样本为中心随机采样得到的采样噪声样本，为从中采样得到的随机噪声，为多维标准正态分布， i为单位矩阵；

77、为采样噪声样本的去噪得分值，为采样噪声样本输入去噪器模型所得到的去噪输出；

78、为第 t+1次迭代过程输入的噪声样本，为噪声样本的第 t+1次迭代过程的噪声水平调度；

79、为噪声样本的去噪得分值，为噪声样本输入去噪器模型所得到的去噪输出。

80、另一方面，所述利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本，包括：

81、在所述自动驾驶决策模型的优化过程中，当达到扩散模型更新条件，则利用当前采集的所述风险驾驶样本更新所述扩散模型的模型参数后，利用更新后的所述扩散模型生成所述合成风险驾驶样本；

82、其中，所述扩散模型更新条件为所述自动驾驶决策模型经过第一预设迭代次数和/或自上一次更新所述扩散模型的模型参数后所述风险驾驶样本的累计数据量达到第一预设数据量。

83、另一方面，所述自动驾驶决策模型为在自动驾驶仿真系统中预训练的模型；

84、利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整，包括：

85、在所述目标车辆与驾驶环境的交互过程中对所述自动驾驶决策模型进行模型迁移微调。

86、为解决上述技术问题，本发明还提供一种自动驾驶决策控制系统，包括：云服务器、设于目标车辆的车载边缘服务器和设于所述目标车辆的自动驾驶控制器；

87、其中，所述车载边缘服务器用于获取自动驾驶决策模型，在利用所述自动驾驶决策模型控制目标车辆运动与驾驶环境的交互过程对所述自动驾驶决策模型进行优化，在优化过程中，自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本，将所述风险驾驶样本发送至所述云服务器，并接收所述云服务器对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本，利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整；在达到模型优化结束条件后，得到优化后的自动驾驶决策模型；利用所述自动驾驶决策模型通过所述自动驾驶控制器控制目标车辆运动。

88、为解决上述技术问题，本发明还提供一种自动驾驶决策控制装置，包括：

89、模型更新模块，用于获取自动驾驶决策模型；利用所述自动驾驶决策模型控制目标车辆运动，并根据所述目标车辆与驾驶环境的交互过程对所述自动驾驶决策模型进行优化，在优化过程中，自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本，利用所述第一实车驾驶样本以及根据所述风险驾驶样本进行样本扩充生成的合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整；在达到模型优化结束条件后，得到优化后的自动驾驶决策模型；

90、数据合成模块，用于对所述风险驾驶样本进行样本扩充生成所述合成风险驾驶样本；

91、决策控制单元，用于利用所述优化后的自动驾驶决策模型进行车辆驾驶控制。

92、为解决上述技术问题，本发明还提供一种自动驾驶决策控制设备，包括：

93、存储器，用于存储计算机程序；

94、处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一项所述自动驾驶决策控制方法的步骤。

95、为解决上述技术问题，本发明还提供一种非易失性存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述自动驾驶决策控制方法的步骤。

96、为解决上述技术问题，本发明还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如上述任意一项所述自动驾驶决策控制方法的步骤。

97、本发明所提供的自动驾驶决策控制方法，有益效果在于针对自动驾驶技术投入应用时因车辆驾驶场景出现显著变化导致自动驾驶决策模型适用性下降的问题，在利用自动驾驶决策模型控制目标车辆运动时，根据目标车辆与驾驶环境的交互过程对自动驾驶决策模型进行优化，在优化过程中，采集第一实车驾驶样本，并自第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本，对风险驾驶样本进行样本扩充生成合成风险驾驶样本，利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整，实现在自动驾驶先验经验基础上以较小的环境交互成本实现面向风险驾驶行为的模型针对性微调，支撑自动驾驶决策控制系统快速适应应用环境与部署应用，提升自动驾驶决策控制系统对于未知新场景的适用性和泛化性。

98、本发明还提供一种自动驾驶决策控制装置、系统、设备、非易失性存储介质及计算机程序产品，具有上述有益效果，在此不再赘述。