技术新讯 > 计算推算,计数设备的制造及其应用技术 > 面向交通电气化耦合系统的电动汽车双层决策引导方法  >  正文

面向交通电气化耦合系统的电动汽车双层决策引导方法

  • 国知局
  • 2024-07-31 23:10:55

本发明涉及面向交通电气化耦合系统的电动汽车双层决策引导方法,属于电动汽车与电网交互。

背景技术:

1、电动汽车作为环境友好型交通工具在近些年受到了诸多关注,各国政府均将推进交通电气化视为解决能源与环境问题的途径。通过采用历史出行特征数据与行为经济学相结合的方式,考虑了电动汽车车主的主观感受与随机心理,侧重于提供了一种有限理性的时前充电决策方法。虽然可以更真实的量化车主的决策过程帮助理解车-网互动的本质,且对车辆进行有序引导可以降低聚集充电带来的影响。但是,上述基于行为经济学的引导方式仍然是一种离线式操作,对海量电动汽车采取集中式控制,需要消耗大量的算力。随着城市电动汽车用户的日趋增加,有必要制定一种实时的充电与行驶决策引导互动方案,为车主提供最优的充电站和行驶路线,并且通过“车-站-路-网”多网信息融合以及多目标优化减少车主充电和出行以及电网安全运行的互动成本。

2、针对多主体互动与多目标优化的电动汽车充电引导问题,电动汽车车主作为智能体感知交通电气化环境信息,包括路网通行状态、充电电价以及充电花费等。智能体通过对耦合网络中的充电和行驶状态的感知,获得相对应的奖励回馈做出决策评价,依次选择合适的充电站进行能量补给以及最优的行驶路线进行通行,直至动作执行完毕抵达目的地。因此,电动汽车充电引导的决策过程完全符合有限马尔科夫链的相关定义。为了有效解决智能体对复杂的交通电气化耦合网络状态感知造成的维数灾难问题,并实现电动汽车充电以及行驶的实时引导,以及解决现有基于drl的方法受限于有限的动作输出空间,难以同时处理充电站推荐与路线导航的问题,有必要开发一种实时且有效的电动汽车充电与行驶决策引导方法。

3、公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

技术实现思路

1、本发明的目的在于克服现有技术中的不足,提供面向交通电气化耦合系统的电动汽车双层决策引导方法,基于dqn架构的改进rainbow算法提高了双层fmdp模型的学习能力、决策性能以及泛化能力,通过训练好的双层fmdp模型实现电动汽车双层决策引导,以实现用户充电成本降低的同时确保电网的稳定运行。

2、为达到上述目的,本发明是采用下述技术方案实现的:

3、本发明公开了面向交通电气化耦合系统的电动汽车双层决策引导方法,包括如下步骤:

4、获取电动汽车的环境数据;

5、将所述环境数据输入至训练好的用于求解电动汽车充电站推荐与路线导航的双层fmdp模型中,得到电动汽车的决策引导结果;

6、其中,所述双层fmdp模型是通过预构建的电动汽车与交通电气化耦合系统的多目标的优化模型进行解耦得到的,所述优化模型的目标函数是以降低电动汽车用户的综合成本以及减小电网电压的偏差为目标,所述优化模型的约束条件包括电动汽车约束、配网潮流约束和运行安全约束;

7、通过基于dqn架构的改进rainbow算法,对所述双层fmdp模型进行训练求解,得到训练好的双层fmdp模型;所述基于dqn架构的改进rainbow算法包括double dqn机制、dueling dqn机制、优先回放缓存机制、学习率衰减策略以及辍学层技术。

8、进一步的,所述电动汽车与交通电气化耦合系统的多目标的优化模型的目标函数的表达式如下:

9、

10、

11、

12、

13、

14、

15、

16、式中,f表示优化模型的目标函数;f1表示电动汽车车主充电与通行成本;f2表示电网运行安全惩罚成本;δmn表示路径选择的0-1变量;表示充电站选择变量,表示电动汽车用户i被推荐至第k座充电站;

17、表示电动汽车用户i的路程能耗成本;表示电动汽车用户i的充电费用;π代表单位时间成本费用;titr表示电动汽车用户i的通行时长;tiwt表示电动汽车用户i的充电等待时长;tich表示电动汽车用户i的充电时长;i∈ωev,ωev为电动汽车数量的集合;

18、ut,p表示节点p的实时电压;表示节点p的额定电压;p∈npg,npg表示电网gpg节点数量;t表示控制时间;

19、表示充电站平均充电价格;εr表示不同等级道路单位里程耗电模型,r=1,2,3;vmn表示交通路网gtn的道路;ωi表示电动汽车用户i的路径选择集合;vmn∈ωtn,ωtn为交通路网gtn路段的集合;lmn表示交通路网gtn的道路vmn长度;表示路径选择的0-1变量;

20、表示电动汽车用户i的开始充电时间;表示电动汽车用户i的结束充电时间;表示第k座充电站的实时电价,k∈ωcs,ωcs为充电站的集合;pch表示充电功率;δt表示仿真步长;

21、表示交通路网gtn的道路vmn平均通行速度;

22、表示电动汽车用户i的电池容量;表示电动汽车用户i的到达时刻soc值;表示电动汽车用户i的期望结束的soc值;fch表示充电电量的soc值;pch表示充电桩的充电功率;ηch表示充电桩的充电效率。

23、进一步的,所述电动汽车约束的表达式如下:

24、

25、

26、

27、式中,表示电动汽车用户i充电需求时的soc值;εr表示不同等级道路单位里程耗电模型,r=1,2,3;vmn表示交通路网gtn的道路;ωi表示电动汽车用户i的路径选择集合;lmn表示交通路网gtn的道路vmn长度;表示路径选择的0-1变量;表示电动汽车用户i的电池容量;efl表示车辆电池最低soc值,低于该值则认为电动汽车抛锚;

28、表示充电站选择变量,表示电动汽车用户i被推荐至第k座充电站;ωcs为充电站的集合;

29、δmn表示路径选择的0-1变量,表示与交通节点vm相邻的路段vmn集合;

30、所述配网潮流约束的表达式如下:

31、

32、

33、式中,表示节点p的充电有功负荷;表示节点p的常规有功负荷;ut,p表示电网节点p的实时电压;gpq表示支路电导;bpq表示支路电纳;θt,pq表示相角差;表示节点的充电无功负荷;表示常规无功负荷;

34、所述运行安全约束的表达式如下:

35、

36、

37、式中,ut,p表示电网节点p的实时电压;表示节点电压下限;表示节点电压上限;it,pq表示线路pq的实时电流;表示电流下限;表示电流上限。

38、进一步的,所述双层fmdp模型包括上层智能体和下层智能体,所述上层智能体用于耦合网络环境与最优充电站之间的映射,所述下层智能体用于耦合网络环境与最佳行驶路径之间的映射;

39、所述双层fmdp模型的训练步骤如下:

40、初始化双层fmdp模型的网络参数;

41、通过基于dqn架构的改进rainbow算法,对初始化的双层fmdp模型进行迭代训练,直至达到预设的迭代终止条件,得到训练好的双层fmdp模型,其中,每一次训练回合包括如下步骤:

42、初始化训练环境,所述训练环境中包括电动汽车数据、充电站数据、配电网数据和交通路网数据;

43、根据所述训练环境,针对每一个电动汽车用户,采用double dqn机制、duelingdqn机制和优先回放缓存机制分别进行下层智能体和上层智能体的网络参数更新;

44、针对最后一个电动汽车用户完成网络参数更新后,采用学习率衰减策略分别更新上层智能体和下层智能体的学习率;

45、在每一次训练回合中,采用辍学层技术,基于预设的变量概率,针对上层智能体和下层智能体自适应选择和丢弃网络神经元。

46、进一步的,所述下层智能体包括下层评价网络、下层目标网络和下层经验回放单元,所述下层智能体的网络参数更新包括如下步骤:

47、通过观察上层状态,得到上层动作决策;

48、根据所述上层动作决策,通过获取下层状态,得到下层动作决策;

49、根据所述下层动作决策,通过观察新的下层状态,计算下层奖励;

50、根据所述下层状态、下层动作决策、新的下层状态和下层奖励,得到对应的下层经验样本;基于优先回放缓存机制将所述下层经验样本存入下层经验回放单元;

51、基于double dqn机制和dueling dqn机制计算所述下层经验回放单元中多个小样本的损失值;以最小化损失值为目标,采用梯度下降法对下层评价网络的网络参数进行优化;其中,每经过预设的优化步长阈值时,将下层评价网络的网络参数赋值给下层目标网络;

52、网络参数优化后,根据所述新的下层状态,响应于电动汽车用户没有到达目标充电站,则回到获取下层状态的步骤进行循环迭代,否则进入上层智能体的网络参数更新步骤。

53、进一步的,所述上层智能体包括上层评价网络、上层目标网络和上层经验回放单元,所述上层智能体的网络参数更新包括如下步骤:

54、通过观察新的上层状态,计算上层奖励;

55、根据所述上层状态、上层动作决策、新的上层状态和上层奖励,得到对应的上层经验样本;基于优先回放缓存机制将所述上层经验样本存入上层经验回放单元;

56、基于double dqn机制和dueling dqn机制计算所述上层经验回放单元中多个小样本的损失值;以最小化损失值为目标,采用梯度下降法对上层评价网络的网络参数进行优化;其中,每经过预设的优化步长阈值时,将上层评价网络的网络参数赋值给上层目标网络。

57、进一步的,所述上层状态的表达式如下:

58、

59、式中,表示电动汽车用户i的上层状态;ev表示电动汽车数据;cs表示充电站数据;pg表示配电网数据;t表示实时时间;表示电动汽车用户i的实时soc值;表示电动汽车用户i的实时位置;表示第k座充电站的实时电价;表示第k座充电站在t时刻的状态变量,表示站内空闲桩数量,否则为排队等待人数;表示充电站位置;表示节点p的实时负荷;表示节点p的实时电压;

60、所述下层状态的表达式如下:

61、

62、式中,表示电动汽车用户i的下层状态;tn表示交通路网数据;表示电动汽车用户i的目标充电站k的位置;表示交通路网gtn的道路vmn平均通行速度;lmn表示交通路网gtn的道路vmn长度;

63、所述上层动作决策的表达式如下:

64、

65、式中,表示上层动作决策;表示电动汽车用户i的目标充电站k的位置;ωcs为充电站的集合;

66、所述下层动作决策的表达式如下:

67、

68、式中,表示下层动作决策;vmn表示交通路网gtn的道路;表示与交通节点vm相邻的路段vmn集合;

69、所述上层奖励的表达式如下:

70、

71、式中,riupp表示上层奖励;表示电动汽车用户i的充电费用;π表示单位时间成本费用;tiwt表示电动汽车用户i的充电等待时长;tich表示电动汽车用户i的充电时长;表示电压惩罚因子;npg表示电网gpg节点数量;ut,p表示节点p的实时电压;表示节点p的额定电压;

72、所述下层奖励的表达式如下:

73、

74、式中,表示下层奖励;lmn表示交通路网gtn的道路vmn长度;表示路径选择的0-1变量;表示充电站平均充电价格;εr表示不同等级道路单位里程耗电模型,r=1,2,3;π表示单位时间成本费用;表示交通路网gtn的道路vmn平均通行速度;表示电动汽车用户i在下一时刻的位置;表示目标充电站位置;ωarr表示导航成功奖励;ωtow表示导航失败惩罚项,即该地区的拖车成本;表示电动汽车用户i的实时soc值;表示电动汽车用户i的电池容量;efl表示车辆电池最低soc值,低于该值则认为电动汽车抛锚。

75、进一步的,所述损失值的计算包括如下步骤:

76、基于double dqn机制,通过上层评价网络或下层评价网络得到能够获得最大q值的动作决策,再通过上层目标网络或下层目标网络计算所述动作决策对应的q值;根据q值,计算损失值,所述损失值的表达式如下:

77、

78、式中,l(ω)表示损失值;rt表示奖励值;γ表示折扣因子;

79、表示目标网络的预估q值;

80、表示评价网络的预估q值;

81、st+1表示t+1时刻的状态;at+1表示t+1时刻的动作决策;ω-表示目标网络的神经网络参;表示评估网络的神经网络参数;

82、其中,所述上层评价网络或下层评价网络或上层目标网络或下层目标网络是基于dueling dqn机制将网络结构分成状态价值和动作优势进行q值的计算,所述dueling dqn机制的表达式如下:

83、

84、式中,q(st,at)表示在状态st与动作at下的q值;表示状态st的状态价值;表示动作决策at的动作价值;表示动作决策at+1的动作价值;|a|表示动作空间a的动作数量。

85、进一步的,所述优先回放缓存机制包括优先存储机制和优先样本提取机制,具体包括如下步骤:

86、基于优先存储机制,响应于所述上层经验样本或下层经验样本对应的奖励值处于预设的奖励范围内,则将所述上层经验样本或下层经验样本存入上层经验回放单元或下层经验回放单元,反之则进行丢弃;

87、基于优先样本提取机制,以时间差分偏差作为评价指标,确定上层经验回放单元或下层经验回放单元中的上层经验样本或下层经验样本被采样为小样本的采样概率,所述采样概率的表达式如下:

88、

89、式中,pj表示第j个上层经验样本或下层经验样本的采样概率;γj表示第j个上层经验样本或下层经验样本的优先性;μ表示控制优先性影响因子,其取值范围为[0,1],当μ=0时表示原始基于均匀采样机制,当μ=1时表示基于时间差分偏差采样机制;nbat表示上层经验回放单元或下层经验回放单元中的上层经验样本或下层经验样本的数量。

90、进一步的,所述学习率衰减策略的表达式如下:

91、

92、式中,αn表示第n次训练回合的学习率;α0表示初始学习率;τ表示衰减系数;n表示当前训练回合;nd表示衰减回合。

93、与现有技术相比,本发明所达到的有益效果:

94、本发明中,首先,通过电动汽车与交通电气化耦合系统的多目标的优化模型解耦得到双层fmdp模型,其次,通过融合double dqn机制、dueling dqn机制、优先回放缓存机制、学习率衰减策略以及辍学层技术的rainbow算法对双层fmdp模型进行训练求解;最后,通过训练好的双层fmdp模型实现电动汽车双层决策引导。相较于离线引导策略和基于基础的dqn的在线引导策略,有效降低了综合费用,同时优化了节点电压分布。

95、本发明首先将充电站推荐与路径导航任务进行解耦成上下层决策问题,并且专门设计了上下层的动作与奖励函数以提高智能体相互协作的效率。其次,基于dqn架构的改进rainbow算法,有效提高了智能体的泛化能力。相较于传统dqn方法,可以对训练数据外的场景进行实时跟踪与学习。同时优先回放缓存机制和学习率衰减策略的使用,提高了双智能体的学习能力和决策性能。通过上-下层双智能体的协作,不仅降低ev用户的平均充电成本,而且还优化了节点电压分布。相较于离线引导策略和基于基础的dqn的在线引导策略,有效降低了综合费用。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196273.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。