一种基于强化学习的路网最短路径距离计算方法

2022-09-03 18:30:38 来源：中国专利 TAG：

技术特征：
1.一种基于强化学习的路网最短路径距离计算方法，其特征在于，包括以下步骤：s1、将构建最短路径距离索引的过程转化成马尔可夫决策过程；s2、基于马尔可夫决策过程，构建并训练基于强化学习的策略模型；s3、利用策略模型构建层级结构的2-hop label索引；s4、对2-hop label索引进行优化；s5、运用优化后的2-hop label索引处理查询，并返回查询结果。2.根据权利要求1所述基于强化学习的路网最短路径距离计算方法，其特征在于，所述s1包括以下步骤：s11、定义路网和最短路径查询；s12、定义树分解；s13、基于路网、最短路径查询和树分解，定义马尔可夫决策过程。3.根据权利要求2所述基于强化学习的路网最短路径距离计算方法，其特征在于，在树分解的每一步，都需从剩余未移除的节点中筛选出若干候选节点，将所有候选节点的特征拼接后构成马尔可夫决策过程的状态；用v
k
＝{u1,
…
,u
k
}表示筛选出的k个候选节点，一个马尔可夫决策过程的行为a＝j表示从v
k
中选择节点u
j
，1≤j≤k；采用同步参考法得到马尔可夫决策过程的奖励，具体为：在树分解的每一步中，从候选节点中选择节点移除的同时，同步使用启发式的方法选择节点进行移除，将该两种操作中得到的结果差值作为奖励；马尔可夫决策过程的状态转移表示为一个元组(s,a,s
′
,r)，表示在当前状态s下选择行为a，进入下一个状态s
′
并得到奖励r的过程。4.根据权利要求3所述基于强化学习的路网最短路径距离计算方法，其特征在于，所述s2包括以下步骤：s21、基于deep q network构建基于强化学习的策略模型；s22、基于马尔可夫决策过程，对策略模型进行训练。5.根据权利要求4所述基于强化学习的路网最短路径距离计算方法，其特征在于，所述s22包括以下步骤：s221、使用随机参数初始化行为网络q(s,a；θ)，目标网络的参数初始和行为网络保持一致，初始化经验池m的容量为n；s222、判断训练周期是否结束，若结束，则跳转至步骤s229，否则继续执行步骤s223；s223、初始化路网，得到第一个状态；s224、判断是否达到终止状态，若是，则跳转至步骤s222，否则继续执行步骤s225；s225、按照∈-greedy的方式，选择行为a，得到状态s
′
和奖励r，存储状态转移元组(s,a,s
′
,r)到经验池m；s226、判断经验池m是否达到容量n，若是，则继续执行步骤s227，否则跳转至步骤s224；s227、从经验池m随机采样一个batch的状态转移元组训练行为网络q(s,a；θ)；s228、进入下一个状态，跳转至步骤s224；s229、训练结束，得到训练好的行为网络q(s,a；θ)。
6.根据权利要求5所述基于强化学习的路网最短路径距离计算方法，其特征在于，所述s3包括以下步骤：s31、基于策略模型将路网转化为树结构；s32、对于树结构中的每一个树结点，按照从上到下的方式计算基于层级结构的2-hop label索引。7.根据权利要求6所述基于强化学习的路网最短路径距离计算方法，其特征在于，所述s31包括以下步骤：s311、获取路网；s312、根据路网构建倒排表；s313、从倒排表中选出k个候选节点组成集合v
k
，计算各候选节点的特征值，将各征值进行拼接组成状态向量；s314、将状态向量输入到策略模型，选择奖励值最大的节点作为移除节点，进行节点移除操作和节点连接操作，将移除节点从未删除节点集合移动到已删除节点集合；s315、判断未删除节点集合是否为空集，若是，则输出各移除节点连接而成的树结构，否则跳转至步骤s312。8.根据权利要求7所述基于强化学习的路网最短路径距离计算方法，其特征在于，索引包括位置数组pos(v)和距离数组dis(v)，位置数组pos(v)存储的是步骤s31得到的树结构的结点x(v)中所有节点在树结构中的深度，距离数组dis(v)存储的是树结构的结点x(v)到所有祖先节点的最短距离。9.根据权利要求8所述基于强化学习的路网最短路径距离计算方法，其特征在于，所述s4包括以下步骤：s41、计算路网的图密度ρ，公式如下：其中，|e|为路网的边总数，|v|为路网的节点总数；s42、选择对路网进行树分解的方法，具体为：设定图密度阈值ρ
θ
，当ρ≤ρ
θ
时，使用最小度的启发式方法对路网进行树分解，当ρ>ρ
θ
时，使用强化学习的方法对路网进行树分解；s43、对路网进行树分解，在该过程中，对于路网中同一条没有分叉的路径line，找到其端点x(u)，并将端点x(u)的结点编号u存储在该line的位置数组pos(v)中；s44、对于line生成的单叉树，将其中所有祖先结点的高度，依次存放于其位置数组pos(v)中；s45、从树根到叶子，依次计算line中所有结点到单支树中祖先结点的最短路径距离，并存放在距离数组dis(v)中，此时，2-hop label索引的优化过程结束。10.根据权利要求9所述基于强化学习的路网最短路径距离计算方法，其特征在于，在步骤s5中，查询过程包括非单支树结点之间的查询、同一单支树结点之间的查询以及不同单支树结点之间的查询。

技术总结
本发明公开了一种基于强化学习的路网最短路径距离计算方法，涉及计算机数据管理技术领域，包括：将构建最短路径距离索引的过程转化成马尔可夫决策过程；基于马尔可夫决策过程，构建并训练基于强化学习的策略模型；利用策略模型构建层级结构的2-hop label索引；对2-hop label索引进行优化；运用优化后的2-hop label索引处理查询，并返回查询结果。本发明构建的索引结构更均衡，占用空间少，查询速度更快，具有很强的实用性，智能化高，模型构建索引的速度快，泛化性能好。泛化性能好。泛化性能好。

技术研发人员：郑渤龙马勇万静意郜勇勇
受保护的技术使用者：华中科技大学
技术研发日：2022.06.27
技术公布日：2022/9/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种集装箱调度的方法、装置、电子设备与流程

一种基于强化学习的路网最短路径距离计算方法

相关文献

最热文献