一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的路网最短路径距离计算方法

2022-09-03 18:30:38 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的路网最短路径距离计算方法,其特征在于,包括以下步骤:s1、将构建最短路径距离索引的过程转化成马尔可夫决策过程;s2、基于马尔可夫决策过程,构建并训练基于强化学习的策略模型;s3、利用策略模型构建层级结构的2-hop label索引;s4、对2-hop label索引进行优化;s5、运用优化后的2-hop label索引处理查询,并返回查询结果。2.根据权利要求1所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述s1包括以下步骤:s11、定义路网和最短路径查询;s12、定义树分解;s13、基于路网、最短路径查询和树分解,定义马尔可夫决策过程。3.根据权利要求2所述基于强化学习的路网最短路径距离计算方法,其特征在于,在树分解的每一步,都需从剩余未移除的节点中筛选出若干候选节点,将所有候选节点的特征拼接后构成马尔可夫决策过程的状态;用v
k
={u1,

,u
k
}表示筛选出的k个候选节点,一个马尔可夫决策过程的行为a=j表示从v
k
中选择节点u
j
,1≤j≤k;采用同步参考法得到马尔可夫决策过程的奖励,具体为:在树分解的每一步中,从候选节点中选择节点移除的同时,同步使用启发式的方法选择节点进行移除,将该两种操作中得到的结果差值作为奖励;马尔可夫决策过程的状态转移表示为一个元组(s,a,s

,r),表示在当前状态s下选择行为a,进入下一个状态s

并得到奖励r的过程。4.根据权利要求3所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述s2包括以下步骤:s21、基于deep q network构建基于强化学习的策略模型;s22、基于马尔可夫决策过程,对策略模型进行训练。5.根据权利要求4所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述s22包括以下步骤:s221、使用随机参数初始化行为网络q(s,a;θ),目标网络的参数初始和行为网络保持一致,初始化经验池m的容量为n;s222、判断训练周期是否结束,若结束,则跳转至步骤s229,否则继续执行步骤s223;s223、初始化路网,得到第一个状态;s224、判断是否达到终止状态,若是,则跳转至步骤s222,否则继续执行步骤s225;s225、按照∈-greedy的方式,选择行为a,得到状态s

和奖励r,存储状态转移元组(s,a,s

,r)到经验池m;s226、判断经验池m是否达到容量n,若是,则继续执行步骤s227,否则跳转至步骤s224;s227、从经验池m随机采样一个batch的状态转移元组训练行为网络q(s,a;θ);s228、进入下一个状态,跳转至步骤s224;s229、训练结束,得到训练好的行为网络q(s,a;θ)。
6.根据权利要求5所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述s3包括以下步骤:s31、基于策略模型将路网转化为树结构;s32、对于树结构中的每一个树结点,按照从上到下的方式计算基于层级结构的2-hop label索引。7.根据权利要求6所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述s31包括以下步骤:s311、获取路网;s312、根据路网构建倒排表;s313、从倒排表中选出k个候选节点组成集合v
k
,计算各候选节点的特征值,将各征值进行拼接组成状态向量;s314、将状态向量输入到策略模型,选择奖励值最大的节点作为移除节点,进行节点移除操作和节点连接操作,将移除节点从未删除节点集合移动到已删除节点集合;s315、判断未删除节点集合是否为空集,若是,则输出各移除节点连接而成的树结构,否则跳转至步骤s312。8.根据权利要求7所述基于强化学习的路网最短路径距离计算方法,其特征在于,索引包括位置数组pos(v)和距离数组dis(v),位置数组pos(v)存储的是步骤s31得到的树结构的结点x(v)中所有节点在树结构中的深度,距离数组dis(v)存储的是树结构的结点x(v)到所有祖先节点的最短距离。9.根据权利要求8所述基于强化学习的路网最短路径距离计算方法,其特征在于,所述s4包括以下步骤:s41、计算路网的图密度ρ,公式如下:其中,|e|为路网的边总数,|v|为路网的节点总数;s42、选择对路网进行树分解的方法,具体为:设定图密度阈值ρ
θ
,当ρ≤ρ
θ
时,使用最小度的启发式方法对路网进行树分解,当ρ>ρ
θ
时,使用强化学习的方法对路网进行树分解;s43、对路网进行树分解,在该过程中,对于路网中同一条没有分叉的路径line,找到其端点x(u),并将端点x(u)的结点编号u存储在该line的位置数组pos(v)中;s44、对于line生成的单叉树,将其中所有祖先结点的高度,依次存放于其位置数组pos(v)中;s45、从树根到叶子,依次计算line中所有结点到单支树中祖先结点的最短路径距离,并存放在距离数组dis(v)中,此时,2-hop label索引的优化过程结束。10.根据权利要求9所述基于强化学习的路网最短路径距离计算方法,其特征在于,在步骤s5中,查询过程包括非单支树结点之间的查询、同一单支树结点之间的查询以及不同单支树结点之间的查询。

技术总结
本发明公开了一种基于强化学习的路网最短路径距离计算方法,涉及计算机数据管理技术领域,包括:将构建最短路径距离索引的过程转化成马尔可夫决策过程;基于马尔可夫决策过程,构建并训练基于强化学习的策略模型;利用策略模型构建层级结构的2-hop label索引;对2-hop label索引进行优化;运用优化后的2-hop label索引处理查询,并返回查询结果。本发明构建的索引结构更均衡,占用空间少,查询速度更快,具有很强的实用性,智能化高,模型构建索引的速度快,泛化性能好。泛化性能好。泛化性能好。


技术研发人员:郑渤龙 马勇 万静意 郜勇勇
受保护的技术使用者:华中科技大学
技术研发日:2022.06.27
技术公布日:2022/9/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献