用于获取地理围栏驾驶策略的基于仿真的方法和数据中心与流程
- 国知局
- 2024-07-31 20:17:24
本发明涉及一种用于为自动驾驶车辆提供驾驶策略的方法。
背景技术:
1、为提高自动驾驶车辆的安全性,在现有技术中使用了仿真。这种仿真可以以在线或离线的方式执行。
2、为提高真实世界驾驶策略的安全性和置信度,提出了在线方案。例如,可以通过在真实驾驶实验期间在场景中插入实时虚拟对象来执行仿真,以考验自动驾驶车辆驾驶策略。这使得即使真实车辆与虚拟车辆发生碰撞,也能在无风险的环境中产生作用。但是,与虚拟车辆的交互是有限的,因为虚拟车辆根据硬编码规则做出决策。此外,真实场景中的其它车辆无法与虚拟车辆交互,这使整个实验产生偏差。因此,使用虚拟车辆进行在线测试无法应对多个真实驾驶员,这限制了可用于安全评估的场景空间。
3、因此,使用虚拟智能体进行在线测试不能用于安全地改进与智能体的交互,而实际上,更适合展示失效案例。
4、以前的其它方法已使用离线交通仿真,以测试和提高驾驶策略的安全性。
5、现有技术的示例使用基于真实世界中由自动驾驶车辆收集的记录数据(下文中也称为日志)的仿真。仿真是根据记录数据初始化的,但日志的某些智能体替代为在完全不同的环境中单独学习的仿真智能体。在仿真期间,目标在于分析自动驾驶车辆驾驶策略对设计为与原始智能体行为不同的仿真智能体的反应。
6、此过程使得能够检查驾驶策略相对于轻微场景扰动的鲁棒性。但是,交通中的原始智能体无法与仿真智能体进行现实交互,因为它们只是使用一些简单的安全规则重播日志。因此,随着仿真的进行,仿真变得越来越不现实,因为仿真智能体的行为与日志不同,这反过来又使日志智能体的行为在新的扰动情况下变得不现实。
7、作为结论,采用仿真智能体替代的基于日志的仿真不太能提供与目标驾驶策略的完全现实的交互,这限制了改进自动驾驶车辆驾驶策略的可能性。
8、此外,需要适应于特定位置的驾驶策略,尤其是可能涉及许多其它车辆和/或交通智能体之间许多不同类型的交互且因此需要能够处理这种位置特定情况(例如进入、驾驶通过和离开特定环形交叉口)的自动驾驶车辆特殊驾驶策略的位置。
技术实现思路
1、鉴于上述情况,本技术的目的在于提供一种程序,该程序使得能够利用现实交互式交通生成器在一个或多个特定目标地理位置上大量训练自动驾驶车辆驾驶策略。
2、上述和其它目的通过独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、说明书和附图中是显而易见的。
3、根据第一方面,提供了一种用于更新目标位置处自动驾驶车辆的目标驾驶策略的方法,包括以下步骤:车辆获取目标位置处的车辆驾驶数据;车辆将获取的车辆驾驶数据和目标位置的当前目标驾驶策略发送到数据中心;数据中心使用车辆驾驶数据对目标位置执行交通仿真,以获取更新的目标驾驶策略;数据中心将更新的目标驾驶策略发送到车辆。
4、自动驾驶车辆获取特定位置(目标位置)处的车辆驾驶数据。这些数据可以通过传感器和/或相机获取。此类记录的车辆驾驶数据发送到数据中心,该数据中心对目标位置执行离线仿真。除已经包括在记录数据中的交通智能体以外,交通仿真还例如通过使用仿真场景中包括的仿真交通智能体以及可以改变/扰动哪些交通参数来训练当前目标驾驶策略。可以在从一个或多个记录的驾驶场景生成的多个驾驶场景的仿真中训练目标驾驶策略,扰动所述一个或多个记录的驾驶场景的特征(即,初始位置、目标、生成时间),以挑战驾驶策略。在仿真步骤之后,根据仿真结果更新当前目标驾驶策略,并将更新的目标驾驶策略传输到自动驾驶车辆。因此,通过在目标位置获取的车辆驾驶数据,改进针对特定目标位置的目标驾驶策略。因此,当车辆下次经过目标位置时,可以应用更新(改进)的目标驾驶策略。例如,智能体(交通智能体)可以指其它车辆或行人。
5、根据一种实现方式,获取目标位置处的车辆驾驶数据、将获取的车辆驾驶数据发送到数据中心、使用车辆驾驶数据对目标位置执行交通仿真以获取更新的目标驾驶策略、将更新的目标驾驶策略发送到车辆的步骤可以重复一次或多次。必要时可以重复整个过程,例如,直到达到足够的安全性和/或置信度度量(评分/指标)。
6、这样,通过获取进一步的车辆驾驶数据(真实数据),例如当车辆下次经过目标位置时,并通过数据中心中的交通仿真器使用进一步的车辆驾驶数据执行进一步的仿真,可以以很少的真实数据和相对较大量的仿真数据以离线方式逐步更新目标驾驶策略。因此,可以进一步训练和优化目标驾驶策略,以提高自动驾驶的安全性。
7、根据一种实现方式,所述方法可以包括以下进一步的步骤:获取通用驾驶数据和通用交通策略;使用通用驾驶数据和车辆驾驶数据使通用交通策略适应于目标位置。
8、初始通用交通仿真器可以使用通用驾驶数据和通用交通策略实现。通过使用目标位置处的车辆驾驶数据,可以通过仿真(尤其是车辆与其它交通智能体的仿真交互)挑战目标位置上的目标驾驶策略,从而根据来自目标位置的(真实)车辆驾驶数据执行通用交通仿真器的微调。例如,可以收集真实的驾驶场景(记录数据),并且场景生成器可以从这些真实的驾驶场景生成1000个新场景,以挑战当前交通策略。可以找到使失效率(例如碰撞率)最大化的驾驶场景扰动序列。失效的特征可以是安全性评分和/或置信度评分低于阈值。换句话说,可以获取使交通策略的安全性和/或置信度评分最小化的场景驾驶扰动序列。因此,可以通过使所生成场景中的驾驶策略的失效率最大化来找到最佳场景扰动。这种扰动是最具挑战性的,因此可优化学习效果。可以在这些新场景中推出交通策略,并进一步更新交通策略。
9、一旦交通仿真器经过微调,便可用于通过基于车辆驾驶数据中的真实场景和仿真(挑战性)场景(例如由挑战性场景生成器生成的场景)的大量合成驾驶场景的仿真交互来改进目标驾驶策略。可以在从记录的场景生成的新驾驶场景中训练目标驾驶策略,以在给定更新的交通的情况下最大限度地提高目标策略的失效率(或者使安全性和/或置信度评分最小化)。如果交通导致失效(例如碰撞),则重复上一步骤,否则意味着目标驾驶策略导致新驾驶场景中的失效(如碰撞),此经验可用于对目标策略进行微调。可以根据应用于原始真实记录驾驶场景的有界扰动序列来生成驾驶场景,以使所生成的新驾驶场景的序列上的碰撞率最大化。如果s0是真实场景,则(s1,…,sn)可以是所生成的具有s0的轻微增量扰动的场景的序列,即,s1=s0+perturbation1,s2=s1+perturbation2等。设c(s,π)表示场景s中策略π的失效指标,则优选使最大化,其中,n表示扰动序列的长度。扰动是对地图上初始位置、目标位置(目的地)、智能体生成时间的修改,或对控制交通参与者风险厌恶的比率的修改。
10、根据一种实现方式,对目标位置执行交通仿真的步骤可以基于适应的通用交通策略。
11、这具有这样的优点,即,可以使用适应的(微调的)通用交通策略更精确地执行进一步的仿真步骤。
12、根据一种实现方式,更新的目标驾驶策略可以包括更新的目标驾驶策略参数集。
13、目标驾驶策略可以通过目标驾驶策略参数描述,因此更新的目标驾驶策略可以通过一个或多个更新的目标驾驶策略参数来定义。具体而言,只有更新的参数可以发送到车辆。
14、根据一种实现方式,执行交通仿真的步骤可以包括训练当前目标驾驶策略,以改进置信度度量和/或安全性度量。
15、可以根据平均加加速度率、与邻近物体的平均最小距离、越野驾驶率或碰撞时间中的至少一个来确定安全性度量(安全性指标)。可以根据到达目的地的平均时间、平均停顿时间或与专家驾驶场景相比的平均纵向速度中的至少一个来估计置信度度量(置信度指标)。
16、根据一种实现方式,所述方法还可以包括通过修改从车辆驾驶数据获取的初始交通场景生成不同交通场景;其中,使用所生成的不同交通场景对目标位置执行交通仿真。例如,场景生成器可以接收真实记录驾驶场景的初始集、表示为π的待挑战交通策略集和不打算进行具体挑战的交通策略集。可以通过生成新驾驶场景的序列(s1,…,sn,如前所述)扰动初始驾驶场景,使得最大化。需要说明的是,c(si,π)根据安全性和置信度指标量化失效。事实上,当在si中使用策略π执行仿真时,可以获取在该场景中针对策略π的安全性指标和置信度指标。需要说明的是,π可以只是目标策略(下面进一步描述的途径的最后一步),或者π可以是交通策略(途径的第二步)。
17、这定义了通过修改从车辆驾驶数据获取的交通场景来仿真的挑战性场景的生成。
18、根据一种实现方式,修改初始交通场景的步骤可以包括以下中的至少一个:(a)增加交通场景中智能体的数量;(b)修改交通场景中智能体的速度;(c)修改交通场景中智能体的初始位置和/或方向;(d)修改交通场景中智能体的轨迹。
19、这为生成挑战性场景提供了可能的具体方式。具体而言,可以插入额外/新的交通智能体。此外或替代地,可以例如通过将围绕来自车辆驾驶数据的智能体的测得速度或插入智能体的速度的扰动包括在内而改变交通智能体的速度。可以尤其通过围绕当前值的扰动而改变交通场景中智能体的初始位置和/或方向,和/或可以改变,特别是扰动交通智能体的轨迹/路径。具体而言,可以改变目的地,并且可以由策略在内部进行路由。此外,可以控制交通策略的行为的一些特征,例如风险厌恶比率。
20、根据一种实现方式,目标位置可以通过地理限制区域的地图数据来描述。
21、目标位置可以通过有界地图描述,尤其是可以使用路网结构进行仿真。这些地图数据还可以包括交通标志,交通标志可以在地图数据中预定义,或者可以从车辆驾驶数据中插入(例如,通过车辆的相机识别)。车辆驾驶数据中的车辆位置可以从位置确定模块(例如gps模块)获取,并且位置可以与地图数据相关。
22、根据一种实现方式,目标位置处的车辆驾驶数据还可以从另外一个或多个车辆中获取。
23、在该实现方式中,车队的其它车辆可以参与提供车辆驾驶数据,然后车辆驾驶数据可用于仿真。这提高了有关安全性和/或置信度的仿真结果,并减少了更新目标驾驶策略的时间。
24、根据第二方面,提供了一种数据中心,所述数据中心包括:接收装置,用于从车辆接收目标位置处的车辆驾驶数据和所述目标位置的当前目标驾驶策略;处理电路,用于使用所述车辆驾驶数据对所述目标位置执行交通仿真,以获取更新的目标驾驶策略;发送装置,用于将更新的目标驾驶策略发送到车辆。
25、根据第二方面及其任意一种实现方式所述的数据中心的优点和进一步细节对应于上面结合根据第一方面及其任意一种实现方式所述的方法描述的优点和进一步细节。有鉴于此,在此及下文中,参考上文的描述。
26、根据一种实现方式,所述处理电路还可用于使用通用驾驶数据和车辆驾驶数据使通用交通策略适应于目标位置。
27、根据一种实现方式,所述处理电路还可用于根据适应的通用交通策略对目标位置执行交通仿真。
28、根据一种实现方式,更新的目标驾驶策略可以包括更新的目标驾驶策略参数集。
29、根据一种实现方式,所述处理电路还可用于训练当前目标驾驶策略,以改进置信度度量和/或安全性度量。
30、根据一种实现方式,所述处理电路还可用于通过修改从车辆驾驶数据获取的初始交通场景生成不同交通场景;并用于使用所生成的不同交通场景对目标位置执行交通仿真。关于生成不同交通场景(即,如何使用挑战性场景生成器)的进一步细节,参考上面结合实现方式的解释,以及下面实施例的详细描述。
31、根据一种实现方式,所述处理电路还可用于通过以下方式中的至少一个修改初始交通场景:(a)增加交通场景中智能体的数量;(b)修改交通场景中智能体的速度;(c)修改交通场景中智能体的初始位置和/或方向;(d)修改交通场景中智能体的轨迹。
32、根据一种实现方式,目标位置可以通过地理限制区域的地图数据来描述。
33、根据一种实现方式,接收装置还可以用于从另外一个或多个车辆接收目标位置处的车辆驾驶数据。
34、根据第三方面,提供了一种系统。所述系统包括车辆和根据第二方面或其任意一种实现方式所述的数据中心。所述车辆用于获取目标位置处的车辆驾驶数据并用于将获取的车辆驾驶数据和目标位置的当前目标驾驶策略发送到数据中心。
35、根据一种实现方式,所述系统可用于重复执行获取目标位置处的车辆驾驶数据、将获取的车辆驾驶数据发送到数据中心、使用车辆驾驶数据对目标位置执行交通仿真以获取更新的目标驾驶策略、将更新的目标驾驶策略发送到车辆的步骤。
36、根据第四方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机可读指令,所述计算机可读指令当在计算机上运行时,用于执行根据第一方面或其任意一种实现方式所述的方法的步骤。
37、以下附图和说明书详细阐述了一个或多个实施例。在说明书、附图以及权利要求中清楚地表明了其它特征、目的和优点。
本文地址:https://www.jishuxx.com/zhuanli/20240731/185710.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表