基于联邦强化学习的多智能体车路云一体化协同决控架构系统及方法
- 国知局
- 2024-07-31 21:24:59
本发明属于交通运输领域,涉及一种基于联邦强化学习的多智能体车路云一体化协同决控架构系统及方法。
背景技术:
1、由于感知范围和计算能力有限,单车智能难以应对复杂的交通状况。基于车路协同技术的智能交通系统通过车辆与道路基础设施之间的信息交换,可以实现车路协同感知和车端计算负荷转移,为复杂交通状况下的自动驾驶提供了新的解决方案。
2、基于车路协同技术的智能交通系统依赖于v2x通信技术,其中包括v2v车对车通信和v2i车对基础设施通信。通过v2x通信,智能交通系统可以获取全方位的交通信息,包括交通参与者信息和道路障碍物信息。车路协同技术具有多方面优势特征,首先通过车路协同,智能网联汽车视野从驾驶员视角扩展到更高更广的bev鸟瞰视角;同时通过v2i车对基础设施通信,可以实现基础设施的部分自动驾驶算法部署,从而减轻智能网联汽车计算负担;并且路侧单元rsu的固定传感系统可以访问道路历史信息,更容易检测到出现在道路上的随机障碍物。基于车路协同技术,智能交通系统充分利用路端优势,从而解决单车感知范围有限、单车计算能力受限、以及随机障碍物检测困难等难题。
3、现有的智能交通系统架构,可以为驾驶员提供额外交通信息和驾驶辅助。但是在自动驾驶领域,交通信息冗余、关键信息提取困难,以及通信开销巨大等难题,直接影响车路协同的决策效率和控制效果,导致服务于自动驾驶的一体化协同架构研究尚不成熟,实际应用技术缺失。并且,现阶段车路协同技术通常默认网联汽车接入协同网络,由隐私意识引起的车路信息不对称进一步限制一体化协同技术发展。
技术实现思路
1、为解决上述技术问题,本发明提供一种基于联邦强化学习的多智能体车路云一体化协同决控架构,采用内嵌车辆动力学特性的多智能体联邦强化学习决控框架,解决了智能交通系统its和智能汽车iv深度信息融合问题,实现了基于车辆与交通深度决控协同的自动驾驶。基于路端视角生成语义矩阵,作为车端强化学习输入,构建了路端指导下的车端全局、局部轨迹规划;利用路端优势实现了行车安全场建模,构建了车端强化学习所使用的融合奖励函数,实现了车端安全性和舒适性综合考量;基于路端联邦学习架构,通过v2i通信传输车端神经网络参数,解决了隐私意识导致的车、路信息不对称难题;针对不同环境样本分布,基于神经网络筛选过程选择针对当前环境的局部最优策略,并且合成受益于不同环境的全球共享模型,实现样本效率和模型鲁棒性之间的平衡。
2、本发明,基于联邦强化学习的多智能体车路云一体化协同决控架构系统的技术方案包括三块主要内容:云端、路端以及车端。
3、对于云端,主要用于信息上传下达,实现不同等级云控应用。云端由云控平台和相关支撑平台组成,通过v2n车云通信结合光承载网络通信实现信息高效互通。
4、所述云控平台按照应用等级可分为网联汽车赋能、交通管理与控制,以及交通数据赋能三种云控应用。对应平台中边缘云、区域云、中心云三种云控等级。
5、所述支撑平台包含且不限于提供完备交通路网和实时交通信息的交管平台、提供物流监管信息的物流平台、提供高精度地图的地图平台、提供高精度定位与导航的定位平台、提供实时天气信息的气象平台等。
6、基于所述边缘云采集的实时交通动态,云控平台提供满足网联汽车行车安全性、提升通行效率等赋能服务。通过边缘云结合支撑平台提供信息,所述区域云提供交通态势感知与评估、交通规划、秩序管理、以及运输管理等服务,实现交通事故减少、道路拥堵疏解、路网效率提升等增益效果。进一步,通过区域云结合支撑平台提供信息,所述中心云基于交通大数据赋能,为高等院校、科研机构、出行服务厂商、汽车制造企业等提供大数据分析服务以及业务支撑。
7、对于路端,主要用于根据云端的不同等级云控应用协调车端群体。路端由多个路侧单元组成,其中单个路侧单元包含信息处理模块和群体协调决策模块。
8、所述信息处理模块将鸟瞰视角的图像输入处理为语义鸟瞰图,并利用路端优势生成高斯安全场,语义鸟瞰图作为车端感知处理模块的输入,而高斯安全场参与生成强化学习模块中的融合奖励函数。所述高斯安全场通过以下方程建立:
9、
10、
11、φ=bx/cy=lv/wv
12、其中,ssta表示静态安全场场强,ca表示静态安全场场强系数,x0和y0表示静态风险中心o(x0,y0)的坐标,ε表示安全场形状系数,bx和cy表示智能网联汽车外观系数,φ为智能网联汽车长宽比,lv表示车长,wv表示车宽。
13、当智能网联汽车运动时,高斯安全场的风险中心o(x0,y0)将随着车辆运动转移为新的风险中心o′(x′0,y′0):
14、
15、
16、其中,kv表示移动调节因子,且符号与运动方向有关,β表示网联汽车转移矢量与笛卡尔坐标系中坐标轴的夹角,表示网联汽车速度矢量。在动态安全场在风险中心转移作用下形成一个虚拟车辆,长为l′v,宽为w′v,sdyn表示动态安全场场强,新的长宽比表示为φ′=b′x/c′y=l′v/w′v。
17、所述群体协调决策模块通过v2i车路通信获取车端群体中的智能网联汽车车端神经网络参数,并基于联邦学习筛选、聚合本地车端群体神经网络参数以及共享神经网络参数,实现多智能体群体优化。群体协调决策过程只传输网络参数而非训练样本,在减少通信和计算开销的基础上保证智能体隐私。进行参数上传下载的神经网络为强化学习的演员-评论家actor-critic networks神经网络,其中演员网络actor network输出规控策略并通过评论家网络critic network实现策略评价。针对不同环境样本分布,基于神经网络筛选过程选择针对当前环境的局部最优策略,并且合成受益于不同环境的全球共享模型,实现样本效率和模型鲁棒性之间的平衡。
18、所述神经网络筛选过程,本发明将基于高斯安全场的驾驶安全性和驾驶攻击性作为网络筛选指标。以基于规则的方法作为筛选基础,实现规则与数据的融合驱动,并通过可解释规则增强算法框架的可解释性。演员网络actor network采用以下聚合过程:
19、
20、其中,表示由智能网联汽车自身参数θμ,i和另一辆智能网联汽车参数θμ,i′聚合而来的新网络参数。rsafety表示智能网联汽车的安全性相关奖励函数,由路端行车高斯安全场从行车安全性以及行车侵略性两方面计算而得:
21、
22、
23、
24、
25、rsafety=rrisk+ragg
26、其中,ri,j(t)表示智能网联汽车j对智能网联汽车i造成的行车风险,表示智能网联汽车j对于智能网联汽车i的场强,kc表示风险认知系数,表示智能网联汽车j在时刻t的速度,θi,j(t)表示智能网联汽车i和智能网联汽车j在时刻t的行驶夹角,rrisk表示行车风险相关奖励函数,frisk(ξ)表示行车风险积分,rthr表示风险阈值,τrc表示超过风险阈值的持续时间,rj,i(t′)表示智能网联汽车i对智能网联汽车j造成的行车风险,表示智能网联汽车i对于智能网联汽车j的场强,表示智能网联汽车j和智能网联汽车i之间的场强,表示智能网联汽车i在时刻t′的速度,θj,i(t′)表示智能网联汽车j和智能网联汽车i在时刻t′的行驶夹角,ragg表示行车侵略性相关奖励函数,fagg(ξ)表示行车侵略性积分。
27、评论家网络critic network采用以下聚合过程:
28、
29、其中,表示由智能网联汽车自身参数θl,i和另一辆智能网联汽车参数θl,i′聚合而来的新网络参数,表示评论家网络critic network在状态-动作对(s,a)下输出的价值。
30、对于车端,主要用于根据路端输入结合智能网联汽车传感器信息输出规划控制量。单个路侧单元下包含多个车端群体,每个车端群体由n辆智能网联汽车组成,通过v2v车车通信实现信息共享。智能网联汽车由感知处理模块、轨迹预测模块、强化学习模块以及智能底盘耦合系统组成。
31、所述感知处理模块将路端提供的语义鸟瞰图根据车端定位进行匹配与分割,将自车动态信息(传感器数据)和路端静态信息融合状态量矩阵,作为强化学习模块神经网络的输入。所述动态信息包括自车速度以及位置信息,所述路端静态信息包含道路、期望路径、以及车道信息,所述状态量矩阵irl∈[0,1]w×h×c,其中w×h=56表示矩阵大小,实际覆盖约14m×14m的物理范围,c=4表示通道数。
32、所述轨迹预测模块通过路端提供的语义鸟瞰图,实现多时步轨迹预测,预测结果将作为强化学习模块输入的一部分。
33、所述强化学习模块通过感知处理模块的输入、轨迹预测模块的输入,结合路端安全场参与生成的融合奖励函数,在carla模拟器中交互产生规划控制量输出。所述交互过程,由强化学习演员网络actor network根据融合状态量产生规划控制输出at1与at2,输出使用激活函数映射到[-1,1]范围内,其中at1表示方向盘控制量,at2被分为[-1,0]、[0,1]两部分,分别表示刹车、油门控制量。
34、所述智能底盘耦合系统,主要用于单个智能网联汽车根据强化学习规控输出和期望路径输出二次规划控制量。通过分布式控制器,控制相对应的底盘智能子系统,其中智能子系统包含且不限于转向子系统、dyc子系统、悬架子系统以及驱动子系统,智能子系统之间存在状态耦合以及成本耦合。其中转向子系统及dyc子系统计算智能网联汽车的横向控制量,悬架子系统计算智能网联汽车的垂向控制量,驱动子系统计算智能网联汽车的纵向控制量。转向子系统、dyc子系统根据强化学习模块输出的方向盘控制量、实际路径和期望路径之间的预瞄误差,计算智能网联汽车横摆力矩。驱动子系统根据油门控制量以及智能网联汽车的当前速度,获取期望目标速度并且计算智能网联汽车的四轮驱动\制动力矩。首先根据pid构建智能网联汽车驱动力方程:
35、
36、其中,fx(t)表示t时刻的智能网联汽车驱动力,kp表示比例增益,e(t)表示t时刻的速度误差,ki表示积分增益,kd表示微分增益。
37、然后考虑以下优化问题:
38、
39、其中fxij表示智能网联汽车四轮纵向力,fyij表示智能网联汽车四轮横向力,fzfl、fzfr、fzrl、fzrr表示智能网联汽车四轮垂向力,fl表示左前轮,fr表示右前轮,rl表示左后轮,rr表示右后轮,μ表示调节因子。由于转向子系统及dyc子系统已经计算出四轮转角,即fyij,ij=fl,fr,rl,rr为定常量,因此上式简化为:
40、
41、subject to
42、
43、
44、
45、其中,m表示智能网联汽车质量,ax表示驱动加速度,d表示智能网联汽车轮距,mz表示附加横摆力矩,rw表示智能网联汽车车轮半径,tmin表示最小驱动力矩或制动力矩,tmax表示最大驱动力矩。上面三个公式分别表示总驱动力满足驱动子系统约束、附加横摆力矩满足转向子系统及dyc子系统约束、驱动力满足执行器约束。
46、最后通过对优化问题求解,获得四轮驱动或制动力矩:
47、tij=fxijrw,i=fl,fr,rl,rr
48、智能底盘耦合系统输出二次规划控制量后,在carla模拟器中控制智能网联汽车进行交互产生经验样本,并根据经验样本训练强化学习模块神经网络参数。再由路端的群体协调决策模块通过v2i车路通信获取车端群体中的智能网联汽车车端神经网络参数,并基于联邦学习筛选、聚合本地车端群体神经网络参数以及共享神经网络参数,实现多智能体群体优化。
49、本发明基于联邦强化学习的多智能体车路云一体化协同决控方法的技术方案包括如下步骤:
50、步骤1:搭建云端平台,通过云端云控平台的三种云控等级提供网联汽车赋能、交通管理与控制,以及交通数据赋能三种云控应用。通过云端的相关支撑平台获取完备交通路网和实时交通信息、物流监管信息、高精度地图信息、高精度定位与导航信息、实时天气信息等。通过云控平台结合相关支撑平台为路端提供交通调度、管理等高等级信息。
51、步骤2:搭建路端平台,通过路端信息处理模块将鸟瞰视角的图像输入处理为语义鸟瞰图,并利用路端优势生成高斯安全场,语义鸟瞰图作为车端感知处理模块的输入,而高斯安全场参与生成强化学习模块中的融合奖励函数。通过路端群体协调决策模块获取车端群体中的智能网联汽车车端神经网络参数,并基于联邦学习筛选、聚合本地车端群体神经网络参数以及共享神经网络参数,搭建多智能体群体优化架构。
52、步骤3:搭建车端平台,单个路侧单元下包含多个车端群体,每个车端群体由n辆智能网联汽车组成,通过v2v车车通信实现信息共享。智能网联汽车由感知处理模块、轨迹预测模块、强化学习模块以及智能底盘耦合系统组成。通过感知处理模块将路端提供的语义鸟瞰图根据车端定位进行匹配与分割,将自车动态信息(传感器数据)和路端静态信息融合状态量矩阵,作为强化学习模块输入的一部分。通过轨迹预测模块根据路端提供的语义鸟瞰图,实现多时步轨迹预测,预测结果将作为强化学习模块输入的一部分。通过强化学习模块将规划控制过程建模为马尔科夫决策过程,将感知处理模块的输出作为强化学习输入,并结合路端安全场参与生成的融合奖励函数,在carla模拟器中交互产生规控输出。然后根据强化学习规控输出和期望路径,通过智能底盘耦合系统输出单个智能网联汽车的二次规划控制量。最后通过分布式控制器,控制相对应的底盘智能子系统。
53、步骤4:车端单辆智能网联汽车的智能底盘耦合系统输出二次规划控制量后,在carla模拟器中进行交互产生经验样本,并根据经验样本训练强化学习模块神经网络参数。
54、步骤5:路端群体协调决策模块通过v2i车路通信获取车端群体中的智能网联汽车车端神经网络参数,并基于联邦学习筛选、聚合本地车端群体神经网络参数以及共享神经网络参数,实现多智能体群体优化。
55、优选的,步骤1中,所述三种云控等级分别为边缘云、区域云、中心云,基于所述边缘云采集的实时交通动态,云控平台提供满足网联汽车行车安全性、提升通行效率等赋能服务。通过边缘云结合支撑平台提供信息,所述区域云提供交通态势感知与评估、交通规划、秩序管理、以及运输管理等服务,实现交通事故减少、道路拥堵疏解、路网效率提升等增益效果。进一步,通过区域云结合支撑平台提供信息,所述中心云基于交通大数据赋能,为高等院校、科研机构、出行服务厂商、汽车制造企业等提供大数据分析服务以及业务支撑。
56、优选的,步骤2中,所述高斯安全场通过以下方程建立:
57、
58、
59、φ=bx/cy=lv/wv
60、其中,ssta表示静态安全场场强,ca表示静态安全场场强系数,x0和y0表示静态风险中心o(x0,y0)的坐标,bx和cy表示智能网联汽车外观系数,φ为智能网联汽车长宽比,lv表示车长,wv表示车宽。
61、当智能网联汽车运动时,高斯安全场的风险中心o(x0,y0)将随着车辆运动转移为新的风险中心o′(x′0,y′0):
62、
63、
64、其中,kv表示移动调节因子,且符号与运动方向有关,β表示网联汽车转移矢量与笛卡尔坐标系中坐标轴的夹角。在动态安全场在风险中心转移作用下形成一个虚拟车辆,长为l′v,宽为w′v,sdyn表示动态安全场场强,新的长宽比表示为φ′=b′x/c′y=l′v/w′v。
65、优选的,步骤2中,所述神经网络筛选过程,将基于高斯安全场的驾驶安全性和驾驶攻击性作为网络筛选指标。以基于规则的方法作为筛选基础,实现规则与数据的融合驱动,并通过可解释规则增强算法框架的可解释性。
66、演员网络actor network采用以下聚合过程:
67、
68、其中,表示由智能网联汽车自身参数θμ,i和另一辆智能网联汽车参数θμ,i′聚合而来的新网络参数。rsafety表示智能网联汽车的安全性相关奖励函数,由路端行车安全场从行车安全性以及行车侵略性两方面计算而得:
69、
70、
71、
72、
73、rsafety=rrisk+ragg
74、其中,ri,j(t)表示智能网联汽车j对智能网联汽车i造成的行车风险,表示智能网联汽车j对于智能网联汽车i的场强,kc表示风险认知系数,表示智能网联汽车j在时刻t的速度,θi,j(t)表示智能网联汽车i和智能网联汽车j在时刻t的行驶夹角,rrisk表示行车风险相关奖励函数,frisk(ξ)表示行车风险积分,rthr表示风险阈值,τrc表示超过风险阈值的持续时间,rj,i(t′)表示智能网联汽车i对智能网联汽车j造成的行车风险,表示智能网联汽车i对于智能网联汽车j的场强,表示智能网联汽车i在时刻t′的速度,θj,i(t′)表示智能网联汽车j和智能网联汽车i在时刻t′的行驶夹角,ragg表示行车侵略性相关奖励函数,fagg(ξ)表示行车侵略性积分。
75、评论家网络critic network采用以下聚合过程:
76、
77、其中,表示由智能网联汽车自身参数θl,i和另一辆智能网联汽车参数θl,i′聚合而来的新网络参数,评论家网络critic network在状态-动作对(s,a)下输出的价值。
78、优选的,步骤3中,所述智能子系统包含且不限于计算智能网联汽车横向控制量的转向子系统及dyc子系统,计算智能网联汽车垂向控制量的悬架子系统,计算智能网联汽车纵向控制量的驱动子系统。转向子系统、dyc子系统根据强化学习模块输出的方向盘控制量、实际路径和期望路径之间的预瞄误差,计算智能网联汽车横摆力矩。驱动子系统根据油门控制量以及智能网联汽车的当前速度,获取期望目标速度并且计算智能网联汽车的四轮驱动\制动力矩。
79、优选的,步骤4中,所述经验样本由元组(st,at,rt,st+1)描述,其中st对应状态量矩阵irl∈[0,1]w×h×c,其中w×h=56表示矩阵大小,实际覆盖约14m×14m的物理范围,c=4表示通道数。at对应强化学习演员网络actor network根据状态量产生规控输出at1与at2,输出使用激活函数映射到[-1,1]范围内,其中at1表示方向盘控制量,at2被分为[-1,0]、[0,1]两部分,分别表示刹车、油门控制量。rt对应期望路径相关奖励函数和安全性相关奖励函数,其中st+1表示下一帧状态量矩阵。
80、优选的,步骤5中,所述车路通信只传输网络参数而非训练样本,在减少通信和计算开销的基础上保证智能体隐私。进行参数上传下载的神经网络为强化学习的演员-评论家神经网络actor-critic networks,其中演员网络actor network输出规控策略并通过评论家网络critic network实现策略评价。
81、本发明的有益效果:
82、(1)本发明提供一种基于联邦强化学习的多智能体车路云一体化协同决控架构,采用内嵌车辆动力学特性的多智能体联邦强化学习决控框架,解决了智能交通系统its和智能汽车iv深度信息融合问题,实现了基于车辆与交通深度决控协同的自动驾驶。
83、(2)基于路端视角生成语义矩阵,作为车端强化学习输入,构建了路端指导下的车端全局、局部轨迹规划;利用路端优势实现了行车安全场建模,构建了车端强化学习所使用的融合奖励函数,实现了车端安全性和舒适性综合考量;基于路端联邦学习架构,通过v2i通信传输车端神经网络参数,解决了隐私意识导致的车、路信息不对称难题。
84、(3)针对不同环境样本分布,基于神经网络筛选过程选择针对当前环境的局部最优策略,并且合成受益于不同环境的全球共享模型,实现样本效率和模型鲁棒性之间的平衡。
本文地址:https://www.jishuxx.com/zhuanli/20240731/189512.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。