一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

支持部分可观测的智能驾驶平台仿真器及观测处理方法

2022-07-14 00:23:15 来源:中国专利 TAG:


1.本发明涉及一种支持部分可观测的智能驾驶平台仿真器及观测处理方法,属于智能驾驶仿真技术领域。


背景技术:

2.随着强化学习领域的不断发展,强化学习已经在许多领域内取得了比较显著的成果,目前已经出现了许多强化学习算法与智能驾驶领域进行结合的工作,智能驾驶领域的l4驾驶技术实现不可或缺的需要强化学习领域的知识,而通向这一目标的关键技术就是强化学习在智能驾驶领域的仿真平台实现。
3.智能驾驶仿真平台是强化学习应用在智能驾驶领域不可缺少的基础,强化学习虽然在智能决策领域上有非常大的潜力,但是强化学习本身的采样效率不够高,因此需要软件层面的平台仿真器提供相比真实环境效率更高的样本数据;此外,对于智能驾驶领域的一些长尾问题,比如危险驾驶,醉酒驾驶,夜晚驾驶等,也需要一个平台仿真器提供相应的场景仿真。部分可观测的智能驾驶平台仿真器能够对分发给强化学习算法的观测进行一个部分可观测的处理,在现实场景中,智能驾驶车辆的感知模块(激光雷达、毫米波雷达、摄像头等)由于障碍物的存在,无法观测到被遮挡的周边车辆以及行人。显而易见,无人驾驶平台仿真器需要真实地模拟出仿真场景下观测模块的观测。因此针对部分可观测的场景,无人驾驶平台仿真器需要准确且高效地对其进行刻画。
4.对于部分可观测的环境,如何利用强化学习算法学习到一个稳定、高效、合理的智能驾驶算法也是一个重点问题。强化学习算法的目标是学习到一个最优策略,即如何在当前状态下做出最优动作的决策。但是,普通的强化学习方法一般立足于完全可观测的环境上进行研究,比如围棋:棋盘上的每一个棋子都可以被精确定位。而对于部分可观测的环境,比如前文介绍的在观测中对被遮挡物体进行剔除的环境,普通的强化学习方法很容易陷入到局部最优值中,无法根据部分可观测的观测合理地进行合理的决策。这是因为,如果仅以部分可观测的观测进行决策会导致算法出现重大错误,比如十字路口下高速行驶的车辆在观测内被遮挡掉了,但是智能驾驶算法认为没有被观测到的车辆不存在而不做任何预防措施的话(比如减速),此时就会出现重大事故。因此,针对部分可观测的环境,强化学习方法需要对部分可观测的观测进行进一步的处理,提高对局部重点区域的关注度,以帮助强化学习算法更好地进行决策。


技术实现要素:

5.发明目的:针对现有技术中存在的问题与不足,本发明提供一种支持部分可观测的智能驾驶平台仿真器。并基于智能驾驶平台仿真器提供了一种基于注意力机制的针对部分可观测数据的处理方法,使智能驾驶平台仿真器能够重点关注部分可观测下的重要区域。
6.技术方案:一种支持部分可观测的智能驾驶平台仿真器,其中,所述智能驾驶平台
仿真器包括三个部分:
7.第一部分,自车模型,所述自车模型向深度强化学习算法提供控制接口:刹车、油门以及方向盘的转角;
8.第二部分,环境车辆模型及行人模型,所述环境车辆模型及行人模型的决策规划算法只是简单的线性规划或者根据专家知识设计的规则,环境车辆模型及行人模型都属于社会车辆模型;
9.第三部分,道路模型,所述道路模型用于描述仿真场景中具体的道路形状,比如道路是否为双车道,每个方向上包含几个车道,某些车道上是否有斑马线以及红绿灯。自车模型和社会车辆模型都需要在道路上合法地行驶。
10.进一步地,所述环境车辆模型及行人模型一般不需要设置传感器,也可以根据需要设置传感器。
11.进一步地,所述自车模型用于向深度强化学习算法提供控制接口:刹车、油门以及方向盘的转角的控制接口,使深度强化学习算法控制自车模型的刹车、油门以及方向盘。为了让强化学习算法能够更为简便地自车模型的对底层硬件进行控制,仿真平台将刹车信号和油门信号这两个控制量映射在0到1之间(0表示没有控制量,1表示控制量达到最大,例如刹车控制量为0表明强化学习算法没有进行任何减速操作,油门控制量为1表明强化学习算法此时要求达到最大加速度),方向盘转角则映射为-1至 1(从最左映射到最右)。强化学习策略可以通过学习这些控制量对自车模型进行控制。
12.上述内容为本发明中智能驾驶平台的基本结构及其相关设置,后续将具体介绍本发明对于智能驾驶平台提供的观测如何进行部分可观测的处理;以及基于注意力机制的针对部分可观测数据的处理方法。
13.一种用于上述智能驾驶平台仿真器的观测处理方法,具体是一种部分可观测处理方法:
14.由于底层仿真软件的限制,自车模型的观测数据是第三视角的完全可观测的观测数据。为了得到部分可观测的观测数据,就需要对完全可观测的观测数据进行部分可观测的处理,即将第三视角中自车无法观测到的社会车辆(包括行人)进行剔除。自车模型的完全可观测的观测输入为纯图像或者为矢量数据。其中,纯图像输入是以自车模型为中心的俯瞰视角图,而矢量数据输入是以自车模型为中心离散化处理过的特征向量。
15.离散化处理是指针对俯瞰视角图,以自车模型为中心设定以预设长度为半径、预设角度为扇形角的扇形区域,通过对扇形区域里的每个社会车辆(包括行人)模型进行扫描检测,保留每条扫描线扫到的第一个社会车辆(包括行人)模型,然后将每条扫描线扫描的结果记录在相应的离散化矩阵,然后将矩阵展开化为向量,即可得到期望的矢量数据;对纯图像输入或者矢量数据输入进行部分可观测处理。
16.在对俯瞰视角图进行离散化处理的阶段,已经保留了每条扫描线扫描到的第一个社会车辆(包括行人)模型,因此离散化后的特征向量也即矢量数据数据就是经过部分可观测处理后的矢量数据。对于图像输入的俯瞰视角图,部分可观测处理则在上述离散化处理的机制上要增加一个步骤,保留每条扫描线扫描到的社会车辆(包括行人)模型的id,然后将当前时刻保留下来的所有id返回给底层智能驾驶平台仿真器,由智能驾驶平台仿真器根据筛选出的id对社会车辆及行人模型进行渲染,渲染出的图片即为经过部分可观测处理后
的俯瞰视角图;如果底层智能驾驶平台仿真器不支持针对性渲染,那么可以直接在原图片中将没有被筛选到的车辆或行人进行替换,可替换为道路或其他。
17.一种基于注意力机制的针对部分可观测数据的处理方法:
18.针对部分可观测处理后的俯瞰视角图或矢量数据,基于注意力机制的观测处理方法会对其进行处理,使智能驾驶平台仿真器能够重点关注部分可观测下的重要区域,帮助强化学习算法更高效地学习,处理后输出的低维观测表征再交给强化学习算法进行处理。
19.基于注意力机制的针对部分可观测数据的处理方法主要通过多头注意力模块完成,将部分可观测处理后的俯瞰视角图或矢量数据输入后,多头注意力模块会对输入中的每个部分进行打分,然后打出的分数与原输入(部分可观测处理后的俯瞰视角图或矢量数据)拼接后一起通过神经网络的全连接层,最后输出的就是为应对部分可观测数据输入的基于注意力机制的观测处理模块的输出。整个基于注意力机制的观测处理模块都是由神经网络构成,包括多头注意力模块以及最后用于特征组合的全连接层都要通过训练才能发挥作用。训练阶段和部署(使用)阶段大体相似,训练阶段只根据预测的重构误差对神经网络的参数进行调整;而部署阶段则固定住整个模块的参数不进行训练,直接对部分可观测的输入进行基于注意力的观测处理。
20.本发明的智能驾驶平台仿真器通过sumo仿真器实现,sumo仿真器能够对仿真场景内每一个社会车辆或行人的行为进行仿真,相比一些强调对视角图片进行逼真处理但无法处理社会车辆流的仿真平台,本发明通过利用sumo平台能够较为高效地仿真大规模车流下智能驾驶算法、社会车辆以及行人的行为。
21.智能驾驶平台仿真器中的社会车辆模型的规划算法可以为简单的线性规划方法,也可以根据专家的先验知识对社会车辆的行为进行设定。并且,本发明可以通过设定道路上的车流量进而对环境中社会车辆的密度进行调控,并且可以手动设定某种车辆模型的物理长度属性,以及在多种车流量下分配每种环境车辆模型的占比。此外,本发明可以通过设定人行道上的行人流量对环境行人模型的密度进行调控。
22.本发明支持程序并行进一步提高仿真平台的仿真效率。所述智能驾驶平台仿真器使用sumo仿真平台作为服务器端,通过创建多进程,每个进程创建一个具体的仿真实例(仿真实例就是一个具体的客户端,能够加载一个具体的仿真场景)与服务器端进行通信,每个进程的仿真实例负责每个场景下的具体需求,底层仿真平台进行具体的仿真计算。通过并行,可以提高整个仿真平台的采样效率,进而提升整个算法流程的训练速度。
23.本发明通过对自车模型的控制接口进行映射和封装,使深度强化学习算法能够直接对自车模型进行控制,对于训练和测试智能驾驶算法具有很大的作用,能够获得与真实车辆行为较为接近的仿真结果,模块化设计使得整个智能驾驶仿真系统具有结构紧凑、适应性强和搭配性强的特点。并且,本发明提出的基于注意力机制的针对部分可观测数据的观测处理方法,能够有效地关注被遮挡的区域,进而有效地帮助智能驾驶算法应对部分可观测的观测情况。综合以上所述部分,本仿真系统在开发和改进自动驾驶算法中能发挥很重要的作用。
附图说明
24.图1为本发明实施例的工作原理图。
25.图2是本发明实施例的仿真器工作的流程图;
26.图3是本发明实施例的部分可观测数据处理的原理图;
27.图4是本发明实施例的基于注意力机制的观测处理模块的原理图。
具体实施方式
28.下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
29.本发明提供了一种支持部分可观测的智能驾驶平台仿真器,智能驾驶平台仿真器通过本发明所提供的部分可观测实现方法,可以使高智能驾驶平台仿真器效地对周围环境车辆以及行人的行为进行仿真,准确地反映出道路上的车流量,精准地向强化学习算法提供所需要的部分可观测的观测输入并且仿真器提供的自车模型的动力学模型与实际车辆的动力学模型是匹配的,通过对真实车流量的仿真可以为算法提供准确的仿真结果。
30.支持部分可观测的智能驾驶平台仿真器,包括:
31.自车模型,所述自车模型向深度强化学习算法提供控制接口:刹车、油门以及方向盘的转角;
32.环境车辆模型及行人模型,所述环境车辆模型及行人模型的决策规划算法只是简单的线性规划或者根据专家知识设计的规则,环境车辆模型及行人模型都属于社会车辆模型;
33.道路模型,所述道路模型用于描述仿真场景中具体的道路形状,比如道路是否为双车道,每个方向上包含几个车道,某些车道上是否有斑马线以及红绿灯。自车模型和社会车辆模型都需要在道路上合法地行驶。
34.环境车辆模型及行人模型一般不需要设置传感器,也可以根据需要设置传感器。
35.自车模型用于向深度强化学习算法提供控制接口:刹车、油门以及方向盘的转角的控制接口,使深度强化学习算法控制自车模型的刹车、油门以及方向盘。为了让强化学习算法能够更为简便地自车模型的对底层硬件进行控制,仿真平台将刹车信号和油门信号这两个控制量映射在0到1之间(0表示没有控制量,1表示控制量达到最大,例如刹车控制量为0表明强化学习算法没有进行任何减速操作,油门控制量为1表明强化学习算法此时要求达到最大加速度),方向盘转角则映射为-1至 1(方向盘从最左映射到最右)。强化学习策略可以通过学习对这些控制量对自车模型进行控制。
36.智能驾驶平台仿真器通过sumo仿真器实现,sumo仿真器能够对仿真场景内每一个社会车辆或行人的行为进行仿真。
37.智能驾驶平台仿真器中的社会车辆模型的规划算法可以为简单的线性规划方法,也可以根据专家的先验知识对社会车辆的行为进行设定。并且,通过设定道路上的车流量进而对环境中社会车辆的密度进行调控,并且可以手动设定某种车辆模型的物理长度属性,以及在多种车流量下分配每种环境车辆模型的占比。此外,可以通过设定人行道上的行人流量对环境行人模型的密度进行调控。
38.支持程序并行进一步提高仿真平台的仿真效率。智能驾驶平台仿真器使用sumo仿真平台作为服务器端,通过创建多进程,每个进程创建一个具体的仿真实例(仿真实例就是
一个具体的客户端,能够加载一个具体的仿真场景)与服务器端进行通信,每个进程的仿真实例负责每个场景下的具体需求,底层仿真平台进行具体的仿真计算。通过并行,可以提高整个仿真平台的采样效率,进而提升整个算法流程的训练速度。
39.仿真器启动的时候会加载所要进行仿真的场景,并且会与初始化后的强化学习算法进行对接。对接完成之后,整个仿真器的准备阶段就结束了。然后仿真器开始按照帧数进行仿真,根据惯例或者手动调整帧数可以实现对仿真平台的精度要求。仿真开始阶段,仿真器会根据初始仿真场景进行渲染,得到没有经过部分可观测处理的俯视图片或者相应的高维数据。然后对数据进行部分可观测的处理。
40.部分可观测处理的输入是以自车模型为中心的完全可观测的俯瞰视角图或矢量数据输入,部分可观测处理会在俯瞰视角图或矢量数据上对被遮挡的车辆或行人的位置进行滤除。其中,矢量数据输入是对俯瞰视角图进行离散化处理后得到的特征向量。由于离散化处理这一步已经对被遮挡的社会车辆或行人进行了滤除,因此对俯瞰视角图进行离散化处理后得到的矢量数据就是经过部分可观测处理后的矢量数据。因为上述离散化的处理将自车视角内无法观测到的车辆或行人都进行了过滤,因此本发明所陈述的离散化处理较为特殊。对于俯瞰视角图的部分可观测处理,则需要保留经过离散化处理后留存下来的社会车辆或行人id,然后在图片中将id对应的社会车辆或行人进行保留,剩余的模型做背景处理后,就可以得到对于俯瞰视角图的部分可观测的观测数据。
41.基于部分可观测处理后的俯瞰视角图或矢量数据,强化学习算法根据自身的参数会进行相应的决策,具体的决策就是根据当前情况产生相应的刹车、油门以及方向盘的开度。
42.这些决策输入转发给智能驾驶仿真平台后,仿真平台根据输入的数据进行下一帧的仿真,同时仿真平台会对仿真的结果进行校验,检查自车模型是否发生碰撞、闯红灯、违章等情况产生。如果由违章等任意危险行为发生,仿真器会直接终止当前的仿真场景,然后向强化学习返回一个比较大的惩罚以及一个标记场景已经仿真结束的标志;如果没有违章等危险行为发生,仿真器会检查该场景是否结束,如果仿真场景已经结束,也即自车模型或全部社会车辆模型已经结束了所有行程,那么仿真器会向强化学习算法发送一个正常的奖赏以及一个标记场景已经仿真结束的标志;如果自车模型或全部社会车辆模型并没有结束所有行程,那么仿真器会向强化学习算法发送一个正常的奖赏以及一个标记场景已经仿真仍在继续的标志,然后整个智能驾驶仿真平台继续重复上一仿真流程,如果有结束标志产生,那么可以选择直接就此终止或重新开始该场景的仿真,新的整个场景的仿真重复上一流程。
43.图2所示的是本发明所述的工作示意图,本发明中的车辆模型主要为两种:自车模型、社会车辆模型。自车模型的底层车辆动力学与环境车辆的车辆动力学是一致的,也可以根据需要手动设置不同的车辆动力学。仿真场景的道路模型可以自己设定,通过设定不同形状,不同车道的道路模型,可以满足不同的道路场景需求。仿真开始阶段,仿真器根据当前的场景计算渲染出当前的场景,随后对该场景进行自车视角的部分可观测处理,处理之后的图像或高维数据将剔除自车视角内无法观测到的社会车辆以及行人模型。然后仿真器将处理后的输入发送到强化学习上,强化学习根据收到的部分可观测输入进行决策,向仿真器发送决策的油门、刹车、方向盘开度。仿真器根据收到的相应决策输入,做出相应决策
下的仿真结果,然后进一步进行渲染,然后整个算法重复上一流程。
44.图3所示的是本发明所包含的部分可观测处理方法,自车模型的观测数据是第三视角的完全可观测的观测数据。为了得到部分可观测的观测数据,就需要对完全可观测的观测数据进行部分可观测的处理,即将第三视角中自车无法观测到的社会车辆或行人进行剔除。自车模型的完全可观测的观测输入为纯图像或者为矢量数据。其中,纯图像输入是以自车模型为中心的俯瞰视角图,而矢量数据输入是以自车模型为中心离散化处理过的特征向量。离散化处理是指针对俯瞰视角图,以自车模型为中心设定以预设长度为半径、预设角度为扇形角的扇形区域,通过对扇形区域里的每个社会车辆或行人模型进行扫描检测,保留每条扫描线扫到的第一个社会车辆或行人模型,然后将每条扫描线扫描的结果记录在相应的离散化矩阵,然后将矩阵展开化为向量,即可得到期望的矢量数据;对纯图像输入或者矢量数据输入进行部分可观测处理。在对俯瞰视角图进行离散化处理的阶段,已经保留了每条扫描线扫描到的第一个社会车辆或行人模型,因此离散化后的特征向量也即矢量数据数据就是经过部分可观测处理后的矢量数据。对于图像输入的俯瞰视角图,部分可观测处理则在上述离散化处理的机制上要增加一个步骤,保留每条扫描线扫描到的社会车辆或行人模型的id,然后将当前时刻保留下来的所有id返回给底层仿真平台,由仿真平台根据筛选出的id进行渲染,渲染出的图片即为经过部分可观测处理后的俯瞰视角图;如果底层仿真平台不支持针对性渲染,那么可以直接在原图片中将没有被筛选到的车辆或行人进行替换,可替换为道路或其他。
45.图4所示的是本发明所包含的基于注意力机制的针对部分可观测数据的观测处理方法,该方法得到经过部分可观测处理后的俯瞰视角图或矢量数据x
t
后,先使用卷积神经网络对输入进行处理,得到提取后的特征e。其中,卷积神经网络由两层卷积层构成,其卷积核大小为2*2。然后方法对得到的特征e添加相对位置编码信息,得到新的特征e

,然后将处理过的特征信息e

复制为变量q,k,v(q,k,v中每个变量都与e

相同,这里进行复制操作是为了后续的多头注意力计算),然后使用多头注意力计算公式得到注意力得分score,然后将注意力得分score与特征数据e

拼接后作为输入到全连接层,全连接层根据score决定每个e

中部分的关注度,最后即可得到经过注意力模块处理过的部分可观测特征。
46.综上所述,本发明提供了支持部分可观测的智能驾驶平台仿真器,此项技术可以应用于智能驾驶算法训练、交通车流模拟等诸多领域。例如,智能驾驶算法可以通过此仿真器得到部分可观测的输入,这样训练出的算法会更加鲁棒,能够有一定对抗被遮挡到的物体的能力,让智能驾驶的落地能够更进一步。此外,本发明还实现了一种基于注意力机制的针对部分可观测数据的观测处理方法,可重点关注部分可观测数据中的重点区域,此模块可以和多种强化学习算法进行结合。
47.综上所述,本发明提供了一种智能驾驶平台仿真器的实现方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献