技术新讯 > 车辆装置的制造及其改造技术 > 一种基于双Q学习与实时速度预测的氢-电混动系统能量管理方法、系统、设备及存储介质  >  正文

一种基于双Q学习与实时速度预测的氢-电混动系统能量管理方法、系统、设备及存储介质

  • 国知局
  • 2024-08-30 14:41:22

本发明属于燃料电池混合系统能量管理,具体涉及一种基于双q学习与实时速度预测的氢-电混动系统能量管理方法、系统、设备及存储介质。

背景技术:

1、燃料电池汽车由于动态响应慢,纯燃料电池车辆无法快速跟踪负载变化,难以满足日常驾驶需求。目前,混合动力系统中“燃料电池+电池”是当前研发和应用的主要配置,而混合动力系统问题的核心是能量管理策略。

2、氢-电混合动力系统的能量管理策略有三种:基于规则的方法、基于优化的方法和基于学习的方法。基于规则的方法根据操作知识和专业经验设计功率分配规则表,使燃料电池尽可能工作在高效区间。基于优化的能量管理策略可以综合考虑功率元件老化和负载条件等各种约束,可分为全局优化方法和瞬时优化方法。全局优化方法可以保证系统的最佳经济性,但这些方法需要提前获取路况,计算量大且实时性不强。瞬时优化方法具有计算量少、实时性高等优点,但经济性和耐用性较低。

3、针对这一问题,本发明利用强化学习实现能量管理,并对强化学习的关键参数进行了研究,以降低算法复杂度并提高实时性。

技术实现思路

1、本发明的目的就在于提供一种基于双q学习与实时速度预测的氢-电混动系统能量管理方法、系统、设备及存储介质,以解决背景技术中提出的问题。

2、本发明通过以下技术方案来实现上述目的:

3、第一方面、本发明提出了一种基于双重强化学习与实时速度预测的氢-电混动系统能量管理方法,所述方法包括如下步骤:

4、s1、获取目标车辆的驾驶数据库,基于多特征提取和概率神经网络构建驾驶模式分类器,并得到分类后的驾驶模式;

5、s2、设计多步马尔可夫速度预测器,通过分类后的驾驶模式得到对应的马尔可夫链,利用所述马尔可夫链对目标车辆进行速度预测,得到预测速度;

6、s3、将所述预测速度输入目标车辆的混合动力系统模型中,输出车辆所需功率、燃料电池输出功率、锂电池输出功率和锂电池soc,根据所述输出对q学习结构进行优化设计,基于设定的双q学习策略更新q学习结构中q函数,根据更新后的q函数实现所述混合动力系统中输出功率的实时分配。

7、进一步地,所述步骤s1包括:

8、s101、建立并标注不同道路剖面的标准数据库,对典型工况分为高速模式、城市流动模式和城市拥堵模式,并用于训练分类器;

9、s102、获取驾驶数据库,并对其时间序列数据进行统计分析,提取出表征不同驾驶模式行为的标准特征;所述标准特征包括平均速度、速度标准差、最大速度、最大加速度、最小加速度、绝对加速度的平均值、绝对加速度的标准差、停车时间占比和匀速时间占比;

10、s103、采用概率神经网络构建驾驶模式分类器,所述分类器结构包括输入层、模式层、求和层和竞争输出层四个部分,其中,输入层节点数对应于所述标准特征的数量,所述模式层对输入信号进行加权求和操作,所述求和层根据parzen方法对各种类型的概率进行求和估计,所述竞争输出层输出驾驶模式的分类结果。

11、进一步地,所述步骤s103中,求和层根据parzen方法对各种驾驶模式的概率进行求和估计,包括:

12、求和层的每个网络单元与对应类别的众数单元连接,每个单元根据parzen方法对各种类型的概率进行求和估计:

13、

14、式中,lg表示第g类的样本数,σ表示平滑参数,介于0和1之间,xij(g)表示g类的第i类神经元的第j个数据。

15、进一步地,所述步骤s2包括:

16、s201、将同一种驾驶模式下的标准驾驶概况融合形成数据集,以构建该模式下的马尔科夫速度预测器;

17、s202、定义n步状态转移概率矩阵,用于进行未来速度预测:

18、

19、其中,k表示第k次;n为采样点个数;a(n+k)和a(k)分别表示第(n+k)次和第k次的加速度;代表当速度状态为vl、加速度状态为a时,经过n步转移到加速度状态aj的次数;为经过n步的次数代表当速度状态为vl且加速度状态为ai时,经过n步到达所有加速状态的次数。

20、进一步地,所述步骤s3中,根据所述输出对q学习结构进行优化设计前,还包括:

21、优先确定q学习结构并表示为五元组:(s,a,t,γ,r),其中s是状态空间,a是动作空间,t是状态转移概率,即γ是折扣因子,r是奖励函数。

22、进一步地,所述步骤s3中,根据所述输出对q学习结构进行优化设计,包括:

23、s301、设置状态空间s:选择功率需求pm和电池soc作为q学习的状态空间s:

24、s(t)={pm(t),soc(t)}

25、pm是系统的总功率需求,soc为电池当前的电量;

26、s302、设置动作空间a:将燃料电池的变化率δpfc作为动作空间a,其单位为kw/s,通过设定范围来抑制燃料电池的变化,如下所示:

27、a=[-5,-2,-1,-0.75,-0.5,-0.3,-0.1,0,0.1,0.3,0.5,0.75,1,2,5];

28、s303、设置奖励函数r:

29、

30、其中,分母第一项代表氢消耗占奖励的比例;分母第二项用于引导电池soc按照设定的参考值socref移动;分母第三项用来最小化δpfc,k;分母第四项是期望燃料电池工作在最高效率附近;w1,…,w4为权重系数。

31、进一步地,所述步骤s3中,基于设定的双q学习策略更新q学习结构中q函数,根据更新后的q函数实现所述混合动力系统中输出功率的实时分配,包括:

32、s304、将获取的样本数据分为两组,分别标记为q1和q2;

33、s305、使用q1组样本数据来确定混合动力系统的最大动作a*:

34、s306、利用q2组样本数据计算在最大动作a*下的值:由于e[q2(a*)]=q(a*),其中q(a*)代表混合动力系统的真实估计值,将q2(a*)作为混合动力系统真实估计值的无偏估计;

35、s307、交换q1和q2的角色,重复执行步骤s305-s306,得到另一个无偏估计;

36、s308、根据获得的无偏估计值,对混合动力系统中输出功率的实时分配。

37、第二方面、本发明提出了一种基于双q学习与实时速度预测的氢-电混动系统能量管理系统,应用于执行如上述能量管理方法,系统包括:

38、驾驶分类模块,用于获取目标车辆的驾驶数据库,基于多特征提取和概率神经网络构建驾驶模式分类器,并得到分类后的驾驶模式;

39、速度预测模块,用于设计多步马尔可夫速度预测器,通过分类后的驾驶模式得到对应的马尔可夫链,利用所述马尔可夫链对目标车辆进行速度预测,得到预测速度;

40、功率分配模块,用于将所述预测速度输入目标车辆的混合动力系统模型中,输出车辆所需功率、燃料电池输出功率、锂电池输出功率和锂电池soc,根据所述输出对q学习结构进行优化设计,基于设定的双q学习策略更新q学习结构中q函数,根据更新后的q函数实现所述混合动力系统中输出功率的实时分配。

41、第三方面、本发明提出了一种电子设备,包括处理器模块,以及存储有计算机程序的存储器模块,所述处理器模块执行所述计算机程序时实现如上述能量管理方法。

42、第四方面、本发明提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器模块执行时实现如上述能量管理方法。

43、本发明的有益效果在于:

44、1.本发明提出了基于数据驱动和统计分析的实时驾驶模式分类和速度预测的实施方法,以预测近期的车辆速度,进而能够提高策略的实时性和泛化性,提高了能量管理策略的可靠性。

45、2.本发明创造性地提出了综合考虑系统安全性、经济性和燃料电池耐久性的奖励价值函数,能够使混合动力系统多目标指标综合最优。采用双重学习的概念来实现无偏估计,即应用双q学习策略来更新q值函数,能够避免q学习算法选取动作时带来的最大偏差。

46、3.本发明以电池荷电状态为指标,设计了功率分配的实时参考路径,探究最优经济性目标下soc的变化轨迹。

本文地址:https://www.jishuxx.com/zhuanli/20240830/283330.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。