一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于无模型强化学习的内燃机起动控制策略、控制系统及汽车

2022-12-20 01:50:50 来源:中国专利 TAG:


1.本发明属于内燃机起动技术领域,尤其涉及基于无模型强化学习的内燃机起动控制策略、控制系统及汽车。


背景技术:

2.随着汽车技术的发展和国家政策的促进,混合动力内燃机也迎来了新一轮的发展,在内燃机控制领域中,内燃机速度控制是其中的一个基本问题。内燃机起动结构主要由进气歧管、喷油管、气缸等几部分组成,具有结构简单、工况相对稳定的特点,这也同时表明控制策略的优劣决定着起动性能的好坏,促进了控制策略的更新与发展。
3.近些年来,汽车起动技术在汽车冷启动与汽车怠速控制取得了突破性的进展,目前除了精确的稳态控制研究外,滑模控制、径向基函数网络控制等控制策略也被开发出来用于汽车起动。汽车起动中瞬态控制也是一个重要问题,为了改善发动机转速的瞬态性能,学者们先后开发出多变量算法、基于mpc技术的速度跟踪控制器等基于模型的方法。同时,基于无模型强化学习方法解决速度控制问题的方法也被开发出来,这种方法不需要掌握系统的数学模型,但也有其不足之处:
4.(1)在动力系统控制领域,需要激励持续性来保证学习参数的收敛性,而确保系统轨迹持续激励的典型技术是引入被称作探测噪声的外源信号,若将其直接作用于输入通道,将带来不必要的振荡;
5.(2)该算法的优劣很大程度上取决于激活函数的选取,若选取不恰当的激活函数,将会大大延长系统收敛的时间。


技术实现要素:

6.为解决上述技术问题,本发明提供一种基于无模型强化学习的内燃机起动控制策略,其加快了内燃机起动的响应时间,避免了系统的无界响应,提高了发动机转速的控制精度。
7.本发明通过如下技术方案实现:
8.一种基于无模型强化学习的内燃机起动控制策略,包括以下步骤:
9.步骤1、建立内燃机起动系统框图,用于确认被控系统的输入输出量及其对应关系;
10.步骤2、应用基于嵌入辅助轨迹的算法更新代价函数与控制策略;
11.所述的嵌入辅助轨迹的算法如下:
[0012][0013]

[0014]
其中t1与t2为大于0的时间常数,且:
[0015][0016]
步骤3、应用带有自适应控制器的内燃机起动系统结构分析各个物理量之间的相互关系及算分与被控系统之间的联系;
[0017]
步骤4、应用基于辅助轨迹的嵌入式神经网络算法通过迭代权重系数取代直接迭代控制策略与代价函数;
[0018]
所述的基于辅助轨迹的神经网络算法如下:
[0019][0020][0021]
其中
[0022][0023][0024]
步骤5、设计速度模块的方框图。
[0025]
进一步的,步骤1包括以下内容:
[0026]
将节气门开度k、喷油量f和通过节气门的混合气体流率(下文简称节气门后流率)设为内燃机起动系统(下文简称系统)的主要变量,其中k和f为控制量,为上一时刻的混合气体流率。
[0027]
由可得到节气门前混合气体流率(下文简称节气门前流率),
[0028]
若已知上一时刻的进入气缸的混合气体流率(下文简称气缸流率),
[0029]
由可得到歧管内压强p,
[0030]
若已知上一时刻发动机转速ω,则由可知当前气缸流率继而可得到节气门后流率
[0031]
由可得到当前发动机转速ω。如图1所示。
[0032]
进一步的,步骤2包括以下内容:
[0033]
将系统输入设定为发动机转速ω与歧管内压强p,定义误差状态量
[0034][0035][0036]
其中,ωd与pd为发动机转速与压强的设定值。
[0037]
内燃机起动过程是典型的连续仿射非线性控制过程,系统满足:
[0038][0039]
其中f(x)是系统内部动力学方程,g(x)是输入量到状态量的动力学方程,u 为系统输入,令x=[x1,x2]
t

[0040]
设计一个辅助系统如下所示:
[0041][0042]
其中xa是辅助系统状态量,状态矩阵a是赫尔维茨矩阵,y是辅助系统输出,也是系统的辅助轨迹,该辅助轨迹将状态轨迹x(t)分成了两个不同的轨迹。
[0043]
令增广系统的状态量x=[x
a1
,x
a2
,x
1-y1,x
2-y2],输出量y=[y1,y2, x
1-y1,x
2-y2];则增广系统也可以表示为:
[0044][0045]
其中,
[0046][0047][0048]
引入外部输入ua(t),即输入通道的输入值更新为:
[0049][0050]
其中为可迭代的控制策略,由此,增广矩阵可更新为:
[0051][0052]
由此式,联系增广系统,可以推得:
[0053]
[0054]
以及
[0055][0056]
以上两个式子即为更新后的基于嵌入辅助轨迹的算法,其中t1与t2为大于0 的时间常数,且:
[0057][0058]
进一步的,步骤3包括以下内容:
[0059]
首先确定被控系统,即内燃机起动系统的输入与输出,根据步骤1与步骤2,确定被控系统的输入为节气门开度k与喷油量f,输出量为发动机转速ω与歧管内压强p的误差状态量x1与x2;其次确定基于嵌入辅助轨迹的算法的输入,根据步骤2,可以看出该输入为其嵌入的辅助轨迹y1、y2与x
1-y1、x
2-y2,此算法为反馈控制规律的核心;最后确定反馈控制规律的输入与输出,根据步骤1,确定其输入量为x1、x2,输出为更新后的控制策略μ1、μ2。如图2所示。
[0060]
进一步的,步骤4包括以下内容:
[0061]
将控制策略与代价函数用多项式来近似表示,即
[0062][0063][0064]
其中ωi与vi分别是神经网络评价环节与表演环节的权重系数,nc与na 与是多项式的项数。
[0065]
用此种方式近似后,可以得到控制策略与代价函数的近似误差分别为
[0066][0067][0068]
其中,
[0069]
[0070][0071]
由此可推得:
[0072][0073][0074]
其中
[0075][0076][0077]
以上ωi与vi的表达式即为基于辅助轨迹的神经网络算法,此方法通过迭代ωi与vi进而更新控制策略与代价函数,该算法采用递归最小二乘法来代替批处理最小二乘法,同时,该神经网络算法采用多隐藏层的形式来代替以往的单隐藏层。
[0078]
进一步的,步骤5包括以下内容:
[0079]
建立map函数,输入量设置为歧管内压强的设定值pd、节气门前流率的设定值气缸流率的设定值输出量设置为发动机转速的设定值ωd、节气门开度的设定值kd、喷油量的设定fd,根据步骤3,控制算法的输入为x1、x2输出为更新后的控制策略μ1、μ2。如图3所示。
[0080]
本发明还有一个目的是提供一种内燃机起动控制系统,包括
[0081]
内燃机起动系统框图建立模块,用于确认被控系统的输入输出量及其对应关系;
[0082]
基于嵌入辅助轨迹的算法模块,用于更新代价函数与控制策略;所述的嵌入辅助轨迹的算法如下:
[0083]
[0084]

[0085]
其中t1与t2为大于0的时间常数,且:
[0086][0087]
带有自适应控制器的内燃机起动系统模块,用于分析各个物理量之间的相互关系及算分与被控系统之间的联系;
[0088]
基于辅助轨迹的嵌入式神经网络算法模块,用于通过迭代权重系数取代直接迭代控制策略与代价函数;所述的基于辅助轨迹的神经网络算法如下:
[0089][0090][0091]
其中
[0092][0093][0094]
速度模块的方框图建立模块。
[0095]
本发明还有一个目的是提供一种汽车,所述的汽车包含上述内燃机起动控制系统。
[0096]
有益效果如下:
[0097]
本发明提供的内燃机起动控制策略中首先建立内燃机起动系统框图,以明确被控系统的输入输出量及其对应关系;其次设计基于嵌入辅助轨迹的算法并将其应用,在此算法中引入的外部输入与内燃机系统分开,避免了系统的无界相应,同时引入了增广系统,使代价函数与控制策略可以通过迭代的方式来更新;然后设计了带有自适应控制器的内燃机起动系统结构,从全局的角度分析了各个物理量的相互联系及算法与被控系统之间的联系;再次,设计了基于辅助轨迹的嵌入式神经网络算法并应用,将无模型算法与神经网络算法结合起来,通过迭代权重系数取代上文中直接迭代控制策略与代价函数,可大大加快响应速度;最后设计了速度模块的方框图,更加详细地体现了输入量与控制量之间的联系,同
时也能直观地体现控制策略的更新。
[0098]
本发明将无模型强化学习技术应用到内燃机起动领域,加快了内燃机起动的响应时间;同时将外部输入与内燃机起动内部模型分离开来,避免了系统的无界响应;引入了前馈系统提高了发动机转速的控制精度。
附图说明
[0099]
图1为内燃机起动系统框图;
[0100]
图2为带有自适应控制器的内燃机起动系统结构;
[0101]
图3为速度模块的方框图。
具体实施方式
[0102]
以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述和讨论,显然这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0103]
下面结合附图对本发明的应用原理作详细的描述。
[0104]
本实施例公开了一种基于无模型强化学习的内燃机起动控制策略
[0105]
步骤1:建立内燃机起动系统框图;
[0106]
步骤2:设计基于嵌入辅助轨迹的算法并应用;
[0107]
步骤3:设计带有自适应控制器的内燃机起动系统结构;
[0108]
步骤4:设计基于辅助轨迹的嵌入式神经网络算法并应用;
[0109]
步骤5:设计速度模块的方框图;
[0110]
建立内燃机起动系统框图过程如下:
[0111]
结合图1,将节气门开度k、喷油量f和节气门后流率设为系统的主要变量,其中k和f为控制量,为上一时刻的混合气体流率。由
[0112][0113]
可得到节气门前流率若已知上一时刻的气缸流率由
[0114][0115]
可得到歧管内压强p,若已知上一时刻发动机转速ω,则由
[0116][0117]
可知当前气缸流率继而可得到节气门后流率由
[0118][0119]
可得到当前发动机转速ω。
[0120]
设计基于嵌入辅助轨迹的算法并应用过程如下:
[0121]
将系统输入设定为发动机转速ω与歧管内压强p,定义误差状态量
[0122][0123][0124]
其中,ωd与pd为发动机转速与压强的设定值。
[0125]
内燃机起动过程是典型的连续仿射非线性控制过程,系统满足:
[0126][0127]
其中f(x)是系统内部动力学方程,g(x)是输入量到状态量的动力学方程,u 为系统输入,令x=[x1,x2]
t

[0128]
设计一个辅助系统如下所示:
[0129][0130]
其中xa是辅助系统状态量,状态矩阵a是赫尔维茨矩阵,y是辅助系统输出,也是系统的辅助轨迹,该辅助轨迹将状态轨迹x(t)分成了两个不同的轨迹。
[0131]
令增广系统的状态量x=[x
a1
,x
a2
,x
1-y1,x
2-y2],输出量y=[y1,y2, x
1-y1,x
2-y2];则增广系统也可以表示为:
[0132][0133]
其中,
[0134][0135][0136]
引入外部输入ua(t),即输入通道的输入值更新为:
[0137][0138]
其中为可迭代的控制策略,由此,增广矩阵可更新为:
[0139][0140]
联系增广系统得到更新后的基于嵌入辅助轨迹的算法:
[0141][0142]

[0143][0144]
以上两个式子即为更新后的基于嵌入辅助轨迹的算法,其中t1与t2为大于0 的时间常数,且:
[0145][0146]
设计带有自适应控制器的内燃机起动系统结构过程如下:
[0147]
结合图2,首先确定被控系统,即内燃机起动系统的输入与输出,根据步骤 1与步骤2,确定被控系统的输入为节气门开度k与喷油量f,输出量为发动机转速ω与歧管内压强p的误差状态量x1与x2;其次确定基于嵌入辅助轨迹的算法的输入,根据步骤2,可以看出该输入为其嵌入的辅助轨迹y1、y2与x
1-y1、x
2-y2,此算法为反馈控制规律的核心;最后确定反馈控制规律的输入与输出,根据步骤 1,确定其输入量为x1、x2,输出为更新后的控制策略μ1、μ2。
[0148]
设计基于辅助轨迹的嵌入式神经网络算法并应用过程如下:
[0149]
将控制策略与代价函数用多项式来近似表示,即
[0150][0151][0152]
其中ωi与vi分别是神经网络评价环节与表演环节的权重系数,nc与na是多项式的项数;
[0153]
用此种方式近似后,可以得到控制策略与代价函数的近似误差分别为
[0154][0155][0156]
其中,
[0157][0158][0159]
由此可推得:
[0160]
[0161][0162]
其中
[0163][0164][0165]
以上ωi与vi的表达式即为基于辅助轨迹的神经网络算法,此方法通过迭代nc与na进而更新控制策略与代价函数,该算法采用递归最小二乘法来代替批处理最小二乘法,同时,该神经网络算法采用多隐藏层的形式来代替以往的单隐藏层。
[0166]
设计速度模块的方框图过程如下:
[0167]
建立map函数,输入量设置为歧管内压强的设定值pd、节气门前流率的设定值气缸流率的设定值输出量设置为发动机转速的设定值ωd、节气门开度的设定值kd、喷油量的设定fd。根据步骤3,控制算法的输入为x1、x2输出为更新后的控制策略μ1、μ2。如图3所示。
[0168]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的创造性精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献