一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

发车调度方法、装置、设备和存储介质

2022-10-13 06:50:01 来源:中国专利 TAG:

技术特征:
1.一种发车调度方法,其特征在于,包括:初始化当前值网络和目标值网络,并将一线路的列车的运营时间划分为预设数量的发车时间段;获取历史一天的乘客出行数据以及所述一线路的列车的容载量,所述乘客出行数据包括各乘客的入站时间、入站车站id、出站车站id和中转车站id,所述中转车站id根据入站车站和出站车站通过最短路径算法确定;根据所述乘客出行数据和所述一线路的列车的容载量,进行预设的模拟总次数的客流模拟,并在每次模拟的过程中,获取样本数据,存入记忆库,同时在每次模拟结束后,统计当次模拟对应的快发车时间段数量和总等待时间,并确定当次模拟对应的当前值网络,其中,一次模拟为进行一天的运营时间的客流模拟,每个样本数据包括一发车时间段的状态数据、所述一发车时间段的下一发车时间段的动作及状态数据以及回报值,所述状态数据包括所述一线路上各车站的站内人数、已发出列车的位置和已发出列出的车内人数,所述动作为以预设的快发车频率进行发车或以预设的慢发车频率进行发车,所述下一发车时间段的动作根据最新的当前值网络确定;当有新的样本数据存入记忆库且所述记忆库中的样本数据的数量达到预设的数量阈值时,则根据预设的批次大小,从所述记忆库中随机选取一批次的样本数据,并根据所述一批次的样本数据对最新的当前值网络进行训练,将训练得到的当前值网络作为最新的当前值网络;当模拟次数达到预设的模拟总次数时,根据各次模拟对应的快发车时间段数量、总等待时间和当前值网络,确定各快发车时间段数量对应的最优当前值网络;根据需求,选取一快发车时间段数量对应的最优当前值网络;获取所述一线路的一发车时间段的状态数据,并根据所述一发车时间段的状态数据,通过所选取的最优当前值网络确定所述一发车时间段的下一发车时间段的动作。2.根据权利要求1所述的发车调度方法,其特征在于,所述根据所述乘客出行数据和所述一线路的列车的容载量,进行预设的模拟总次数的客流模拟,并在每次模拟的过程中,获取样本数据,存入记忆库,同时在每次模拟结束后,统计当次模拟对应的快发车时间段数量和总等待时间,并确定当次模拟对应的当前值网络,包括:预设第i次模拟中运营时间的第一个发车时间段的动作,并将所述第一个发车时间段作为当前发车时间段,i的初始值为1;根据当前发车时间段的动作、乘客出行数据、容载量以及预设的单位时间,进行当前发车时间段的客流模拟,并获取当前发车时间段结束时的状态数据作为当前发车时间段的状态数据,同时根据当前发车时间段中的各单位时间内所述一线路上各车站的等车人数,统计当前发车时间段的总等待时间;生成随机数,所述随机数的范围为0-1;若所述随机数小于第i次模拟对应的探索率,则随机生成当前发车时间段的下一发车时间段的动作;若所述随机数大于或等于第i次模拟对应的探索率,则根据最新的当前值网络确定当前发车时间段的下一发车时间段的动作;根据所述下一发车时间段的动作、乘客出行数据、容载量以及预设的单位时间,进行下
一发车时间段的客流模拟,并获取下一发车时间段结束时的状态数据作为下一发车时间段的状态数据,同时根据下一发车时间段中的各单位时间内所述一线路上各车站的等车人数,统计下一发车时间段的总等待时间;根据当前发车时间段的总等待时间、下一发车时间段的动作以及第j轮迭代对应的惩罚项函数,计算回报值,j=

i/epoch

,epoch为预设的每轮迭代的模拟次数;根据所述当前发车时间段的状态数据、下一发车时间段的动作、回报值和下一发车时间段的状态数据,生成一个样本数据,并将所述样本数据存储至记忆库;判断所述下一发车时间段是否为运营时间的最后一个发车时间段;若否,则将所述下一发车时间段作为当前发车时间段,继续执行所述生成随机数的步骤;若是,则统计第i次模拟中动作为以快发车频率进行发车的发车时间段的数量,得到第i次模拟对应的快发车时间段数量,根据第i次模拟中运营时间的各发车时间段的总等待时间,计算得到第i次模拟对应的总等待时间,并将当前最新的当前值网络作为第i次模拟对应的当前值网络;判断i是否等于预设的模拟总次数;若否,则根据第i次模拟对应的探索率以及预设的最小探索率,确定第i 1次模拟对应探索率,第一次模拟对应的探索率为预设的探索率初始值,并令i=i 1,继续执行所述预设第i次模拟中运营时间的第一个发车时间段的动作,并将所述第一个发车时间段作为当前发车时间段的步骤。3.根据权利要求2所述的发车调度方法,其特征在于,所述根据所述当前发车时间段的动作、乘客出行数据、容载量以及预设的单位时间,进行当前发车时间段的客流模拟,包括:将当前发车时间段的第一个单位时间作为当前单位时间;根据所述当前发车时间段的动作以及预设的列车运行数据,分别判断当前单位时间内所述一线路上的各车站是否有列车到站;若一车站有列车到站,则根据乘客出行数据以及列车的容载量,对所述一车站进行人流交互处理,所述人流交互处理包括到站乘客下车和站内乘客上车,所述到站乘客包括已上车且出站车站id或中转车站id为所述一车站的车站id的乘客,所述站内乘客包括入站乘客和换乘乘客,所述入站乘客包括入站时间早于当前单位时间、入站车站id为所述一车站的车站id且未上车的乘客,所述换乘乘客包括中转车站id为所述一车站的车站id、到达中转车站的时间超过预设的换乘时间、出站车站id对应的车站为所述一线路上的车站且未上车的乘客;根据人流交互处理结果,更新所述一车站的站内人数和已发出列车的车内人数,并统计当前单位时间内所述一车站的等车人数;若一车站无列车到站,则根据乘客出行数据以及所述一车站的车站id,更新所述一车站的站内人数,并统计当前单位时间内所述一车站的等车人数;根据当前单位时间内所述一线路上各车站的等车人数,统计当前单位时间内的总等车人数;判断当前单位时间是否为当前发车时间段的最后一个单位时间;若否,则将下一单位时间作为当前单位时间,继续执行所述根据当前发车时间段的动
作以及预设的列车运行数据,分别判断当前单位时间内所述一线路上的各车站是否有列车到站的步骤。4.根据权利要求2所述的发车调度方法,其特征在于,所述根据最新的当前值网络确定当前发车时间段的下一发车时间段的动作,包括:根据当前发车时间段的状态数据以及预设的动作集合,通过最新的当前值网络计算所述动作集合中的各动作的评分,并将评分最大值对应的动作作为下一发车时间段的动作,所述动作集合包括以预设的快发车频率进行发车以及以预设的慢发车频率进行发车。5.根据权利要求2所述的发车调度方法,其特征在于,所述根据当前发车时间段的总等待时间、下一发车时间段的动作以及第j轮迭代对应的惩罚项函数,计算回报值,包括:根据回报值计算公式计算回报值,所述回报值计算公式为r=-c
tk-a(f
j
(x)-f
j
(x-1)),其中,r为回报值,c
tk
为当前发车时间段的总等待时间,若下一发车时间段的动作为以预设的快发车频率进行发车,则a=1,若下一发车时间段的动作为以预设的慢发车频率进行发车,则a=0,f
j
(x)为第j轮迭代对应的惩罚项函数。6.根据权利要求5所述的发车调度方法,其特征在于,所述令i=i 1之前,进一步包括:判断i是否等于每轮迭代的模拟次数的整数倍;若是,则根据惩罚项函数更新公式以及第j轮迭代对应的惩罚项函数,确定第j 1轮迭代对应的惩罚项函数,所述惩罚项函数更新公式为f
j 1
(x)=k
new
×
smooth

(c
best,j
(x)) k
old
×
f
j
(x),其中,f
j 1
(x)为第j 1轮迭代对应的惩罚项函数,f
j
(x)为第j轮迭代对应的惩罚项函数,smooth()为平滑函数,c
best,j
(x)表示第j轮迭代中快发车时间段数量x对应的最少总等待时间,k
new
和k
old
为预设的调节参数,f1(x)=x

m0,x表示快发车时间段的数量,m0为预设的单次快发车的惩罚项。7.根据权利要求6所述的发车调度方法,其特征在于,所述获取历史一天的乘客出行数据以及所述一线路的列车的容载量之后,进一步包括:将运营时间的各发车时间段的动作均设为以预设的慢发车频率进行发车,根据所述乘客出行数据和所述一线路的列车的容载量,进行一次慢发车模拟,并根据所述慢发车模拟中各发车时间段的总等待时间,统计得到理论最长等待时间;将运营时间的各发车时间段的动作均设为以预设的快发车频率进行发车,根据所述乘客出行数据和所述一线路的列车的容载量,进行一次快发车模拟,并根据所述快发车模拟中各发车时间段的总等待时间,统计得到理论最短等待时间;将所述理论最长等待时间与理论最短等待时间之差除以预设的一天的发车时间段总数,得到单次快车发的惩罚项。8.根据权利要求2所述的发车调度方法,其特征在于,所述根据第i次模拟对应的探索率以及预设的最小探索率,确定第i 1次模拟对应探索率,包括:根据探索率更新公式确定第i 1次模拟对应的探索率,所述探索率更新公式为ε
i 1
=max(ε
min
,ε
i
0.0045),其中,ε
i 1
为第i 1次模拟对应的探索率,ε
i
为第i次模拟对应的探索率,ε
min
为预设的最小探索率。9.根据权利要求8所述的发车调度方法,其特征在于,预设的探索率初始值ε1=1,预设的最小探索率ε
min
=0.1。10.根据权利要求2所述的发车调度方法,其特征在于,所述将所述样本数据存储至记
忆库之前,进一步包括:若记忆库已存储满,则删除最早存储至记忆库的样本数据。11.根据权利要求1所述的发车调度方法,其特征在于,所述当有新的样本数据存入记忆库且所述记忆库中的样本数据的数量达到预设的数量阈值时,则根据预设的批次大小,从所述记忆库中随机选取一批次的样本数据,并根据所述一批次的样本数据对最新的当前值网络进行训练,将训练得到的当前值网络作为最新的当前值网络,包括:当有新的样本数据存入所述记忆库且所述记忆库中的样本数据的数量达到预设的数量阈值,则从所述记忆库中随机选取预设批次大小的样本数据,作为当前批次样本数据,并将最新的当前值网络作为待训练当前值网络;遍历当前批次样本数据,依序从当前批次样本数据中获取一样本数据;通过最新的待训练当前值网络计算所述一样本数据中的当前发车时间段的状态数据和下一发车时间段的动作对应的评分,作为所述一样本数据对应的第一评分;通过最新的目标值网络分别计算所述一样本数据中的下一发车时间段的状态数据对应各动作的评分,并将评分最大值作为所述一样本数据对应的第二评分;根据所述一样本数据中的回报值、所述一样本数据对应的第一评分和第二评分以及预设的折扣率,计算损失值,并根据所述损失值更新最新的待训练当前值网络的网络参数;当遍历完当前批次样本数据后,将最新的待训练当前值网络作为最新的当前值网络。12.根据权利要求11所述的发车调度方法,其特征在于,还包括:当模拟次数达到预设的第一次数的整数倍时,根据最新的当前值网络的网络参数,更新目标值网络的网络参数。13.根据权利要求11所述的发车调度方法,其特征在于,所述根据所述一样本数据中的回报值、所述一样本数据对应的第一评分和第二评分以及预设的折扣率,计算损失值,包括:根据损失函数计算损失值,所述损失函数为loss=(q
target
(s,a)-q
evel
(s,a))2,q
target
(s,a)=r γ
×
max
a'∈a
q(s’,a’),其中,loss为损失值,q
evel
(s,a)为所述一样本数据对应的第一评分,r为所述一样本数据中的回报值,γ为预设的折扣率,max
a'



a
q(s’,a’)为所述一样本数据对应的第二评分。14.根据权利要求1所述的发车调度方法,其特征在于,所述根据各次模拟对应的快发车时间段数量、总等待时间和当前值网络,确定各快发车时间段数量对应的最优当前值网络,包括:比较同一快发车时间段数量的各次模拟对应的总等待时间,将所述对应的总等待时间最少的一次模拟对应的当前值网络作为所述同一快发车时间段数量对应的最优当前值网络。15.一种发车调度装置,其特征在于,包括:初始化模块,用于初始化当前值网络和目标值网络,并将一线路的列车的运营时间划分为预设数量的发车时间段;获取模块,用于获取历史一天的乘客出行数据以及所述一线路的列车的容载量,所述乘客出行数据包括各乘客的入站时间、入站车站id、出站车站id和中转车站id,所述中转车站id根据入站车站和出站车站通过最短路径算法确定;
模拟模块,用于根据所述乘客出行数据和所述一线路的列车的容载量,进行预设的模拟总次数的客流模拟,并在每次模拟的过程中,获取样本数据,存入记忆库,同时在每次模拟结束后,统计当次模拟对应的快发车时间段数量和总等待时间,并确定当次模拟对应的当前值网络,其中,一次模拟为进行一天的运营时间的客流模拟,每个样本数据包括一发车时间段的状态数据、所述一发车时间段的下一发车时间段的动作及状态数据以及回报值,所述状态数据包括所述一线路上各车站的站内人数、已发出列车的位置和已发出列出的车内人数,所述动作为以预设的快发车频率进行发车或以预设的慢发车频率进行发车,所述下一发车时间段的动作根据最新的当前值网络确定;训练模块,用于当有新的样本数据存入记忆库且所述记忆库中的样本数据的数量达到预设的数量阈值时,则根据预设的批次大小,从所述记忆库中随机选取一批次的样本数据,并根据所述一批次的样本数据对最新的当前值网络进行训练,将训练得到的当前值网络作为最新的当前值网络;第一确定模块,用于当模拟次数达到预设的模拟总次数时,根据各次模拟对应的快发车时间段数量、总等待时间和当前值网络,确定各快发车时间段数量对应的最优当前值网络;选取模块,用于根据需求,选取一快发车时间段数量对应的最优当前值网络;第二确定模块,用于获取所述一线路的一发车时间段的状态数据,并根据所述一发车时间段的状态数据,通过所选取的最优当前值网络确定所述一发车时间段的下一发车时间段的动作。16.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-14中任一所述的发车调度方法。17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-14任一项所述的发车调度方法的步骤。

技术总结
本发明公开了一种发车调度方法、装置、设备和存储介质,方法包括:根据乘客出行数据,进行预设的模拟总次数的客流模拟,在模拟的过程中,获取样本数据,存入记忆库,在每次模拟结束后,获得当次模拟对应的快发车时间段数量、总等待时间和当前值网络;当记忆库中的样本数据的数量达到预设的数量阈值时,则根据预设的批次大小,从记忆库中随机选取一批次的样本数据,对最新的当前值网络进行训练,得到最新的当前值网络;当模拟次数达到预设的模拟总次数时,确定各快发车时间段数量对应的最优当前值网络;通过一快发车时间段数量对应的最优当前值网络和一发车时间段的状态数据,确定下一发车时间段的动作。本发明可实时动态调整发车模式。式。式。


技术研发人员:宋轩 朱世博 冯德帆 陈星宇 朱佳文
受保护的技术使用者:南方科技大学
技术研发日:2022.09.08
技术公布日:2022/10/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献