一种面向多智能体任务规划的复杂优化方法与流程

2022-07-31 00:16:50 来源：中国专利 TAG：

1.本发明属于智能体任务规划优化技术领域，特别涉及一种面向多智能体任务规划的复杂优化方法。

背景技术：

2.任务规划是智能体完成复杂工作的必要和关键环节。智能体的任务规划主要包括任务分配、路径规划、链路使用规划、传感器使用规划，以及任务规划的检验和评估等。
3.多智能体路径规划是多智能体的任务规划典型应用之一，也即无冲突地寻找多个智能体从起始位置到目标位置最优路径集合的一类问题。传统的路径规划算法例如人工势场法、d*法等，虽然一定程度上构建了机器人、智能体、无人车和无人船等路径规划解决方案，但这些传统算法多集中于在结构化或近似结构化的约束场景中解决单一目标或静态目标的简单任务规划，而真实场景中通常问题更为复杂，非结构化现场环境充满着各种不确定性，甚至需要多智能体协作才能完成预定任务，直接应用现有任务规划技术时极易发生解空间探索效率低下，对危险情况估计不足，甚至目标局部成功而整体规划失败等问题。
4.多智能体路径规划研究的重点集中在问题的求解方式、求解效率和求解质量上。任务规划问题的求解通常是依托优化问题来求解。最优的多智能体路径规划技术主流方法包括a*类搜索、代价增长树搜索和基于冲突的搜索三大类，这些方法借助精心设计优化算法，可以获得全局最优的多智能体路径规划，但通常以空间代价与时间代价高、求解速度慢，高层次搜索冗余度高、实现难度高为代价。
5.近年来，随着计算技术迅猛发展，多智能体路径规划逐步应用到高度复杂真实场景，原有许多优化问题相应呈现出非线性、不可微、规模大，np难的特点，进而导致使用上述传统最优规划方法，在面对越来越复杂的问题时显现出其局限性和不足。特别是多智能体解空间随着状态量维度的增长而指数增长，最优的多智能体路径规划只在较少应用中具有实用价值。因此，适当牺牲多智能体路径规划算法的最优性能，换取大幅提高算法的执行效率成为解决工程实际问题可行替代方案。基于此思路代表技术由基于搜索和基于规则的近似的多智能体路径规划算法。这些方法都较易于实现，但难以兼顾求解速度快与结果质量，进而限制其在实际工程中的推广应用。
6.为了解决上述问题，如何在保持信息表示有效性的前提下，降低待优化问题的样本维度，是应对现实场景的多对多复杂任务规划问题的关键所在。

技术实现要素：

7.为了解决现有技术中多对多复杂规划问题的样本空间维度高、优化求解速度慢等问题，本发明将多智能体任务规划分为目标任务分配和多智能体路径规划，采用智能体与目标任务双向竞标实现目标任务分配，采用多智能体循环交互单元构建智能体历史经验的共享与信息交互，在兼顾求解速度与结果质量的前提下，完成多智能体任务规划。
8.为了实现上述目的，本发明的技术方案为：
一种面向多智能体任务规划的复杂优化方法，所述多智能体任务规划基于马尔可夫决策和博弈论理论实现，包括多目标任务分配和多智能体路径规划；所述多目标任务分配采用双向竞标，即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略；记所有智能体的状态量为全局状态量，所述多智能体路径规划是采用多智能体交互模块对所述全局状态量进行降维，降维后的状态量经动作决策，得到最优动作集合，即最优路径规划结果；其中，为第m个智能体在t时刻的状态量，，其任务规划结果是获得最优动作；所述多智能体交互模块包括依次连接的相关性排序单元和循环交互单元；所述相关性排序单元用于进行相关性排序，所述循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维，所述循环交互单元的输出记为，与的拼接记为紧凑全局状态量；任意给定输入和，输出，所述智能体m循环交互单元的循环递推结构的表达式为：
ꢀꢀꢀ
(1)
ꢀꢀꢀꢀ
(2)
ꢀꢀꢀꢀ
(3)其中，为逐元素的乘积，是sigmoid函数，分别为权值方阵，记为循环交互单元参数，i为所述循环交互单元的循环次数索引。
9.所述多目标任务分配具体步骤包括：s11：环境建模以数字化地图构建所述多智能体任务规划的环境，描述环境中要素的坐标位置，所述要素至少包括智能体、目标点、障碍物，将智能体和目标点抽象为质点，环境中的障碍
物抽象为几何区域；设智能体个数为m，目标任务个数为n，且m≥n；n记为目标任务的索引，所述多目标任务分配的总价值p最大化为约束条件；s12：智能体竞标目标任务选择总价值最大的方案x为智能体竞标目标任务的最优任务分配方案，x为矩阵，记为正向分配方案；
ꢀꢀ
（4）其中，vn是目标任务n的执行收益，k
mn
为第m个智能体对目标任务n的匹配系数，q
mn
为智能体m对目标任务n成功完成的概率，其取值范围为，x
mn
代表竞标方案矩阵x的元素，定义为：
ꢀꢀ
（5）x
mn
=1时，表示智能体m执行目标任务n；x
mn
=0时，表示智能体m不执行目标任务n；s13：目标任务竞标智能体选择总价值最大化的方案y为目标任务竞标智能体的最优任务分配方案，记为反向分配方案；
ꢀꢀ
（6）其中，um是智能体m对目标任务的执行收益，g
nm
为第n个目标任务对智能体m的匹配系数，q
nm
为目标任务n采用智能体m成功完成的概率，且q
nm
=q
mn
，y
nm
代表竞标方案矩阵y的元素，定义为：
ꢀꢀ
（7）y
mn
=1时，表示目标任务n选择智能体m执行任务；y
mn
=0时，表示目标任务n不采用智能体m执行任务；s14：将方案x和方案y的转置矩阵进行逐元素比对，若对应位置的元素取值相同，则取该位置对应的智能体和目标任务作为分配结果；若对应位置的元素取值不一致，则对方案x的不一致元素记录相应的值，对方案y的不一致元素记录相应的值；将所有记录的值按取值大小确定未分配智能体或目标任务的优先级，取值越大的对应的智能体与目标任务分配结果越优先被采纳，直至所有目标任务均分配了智能体。
10.所述多智能体路径规划具体步骤包括：s21：初始化设置在t=0阶段，观测全局状态量；设定t的上限值；遍历所有智能体，完成所有智能体的初始化，具体方法是：对于智能体m，采用随机初始化的方式，随机生成动作策略的参数，并设置的最优参数，随机生成评判策略的参数，并设置的最优参数；随机初始化循环交互单元的所有参数；s22：设置从第m=0个智能体开始，逐个智能体执行步骤s23-s29；s23：计算多智能体交互信息将多智能体的全局状态量输入相关性排序单元进行相关性排序，相关性排序单元的输出是除智能体m的状态量之外的，且经排序后的其他智能体的状态量，将相关性排序单元的输出按照大至小的顺序依次输入循环交互单元按照公式（1）-（3）进行迭代，得到循环交互单元输出；智能体m每完成一次任务规划，将其循环交互单元参数共享给下一个智能体m 1的循环交互单元，循环交互单元参数通过共享更新，即
ꢀꢀ
（8）式中，的取值范围为[0.05，0.5]；s24：生成最优动作基于动作策略生成最优动作为：
ꢀꢀꢀ
（9）其中，为随机噪声，表示参数为时的动作策略；s25：评估路径规划结果依据最优动作，智能体m完成一次任务规划，评估此时智能体和目标任务所产生的奖励，以及其下一时刻达到的状态；s26：获取多智能体路径规划参数优化的数据包存储t时刻的到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库，采用随机取样方式，从历史数据库中抽取一批数据，构成多智能体路径规划
参数优化数据包，数据包包含k组样本，k为样本索引，，第k组样本包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量；s27：根据k个样本逐一计算智能体m的总奖励期望的目标值
ꢀꢀ
(10)其中，表示以当前最优动作策略参数计算的最优动作，表示当前奖励的期望以最优的评价策略参数计算，，为相邻两次多智能体路径规划奖励的权重系数；s28：智能体m，动作策略、评判策略和循环交互单元参数通过最小化损失函数值l来优化
ꢀꢀ
(11)其中，；则评判策略参数更新为，动作策略的参数更新为，更新为，；s29：更新智能体m的动作策略和评判策略的最优模型参数
ꢀꢀ
(12)其中，为更新权重，；所有智能体完成步骤s23-s29后，在t的上限值范围内，通过不断重复s22-s29，实现动作策略的最优模型参数的逐步优化，并以最终的为动作策略的最优动作，即最优路径规划结果。
[0011]
优选地，所述相关性排序具体方法是：智能体m与其他的任一智能体l的相关性通过其状态量间的距离来度量，采用范数计算：
ꢀꢀ
(13)其中，j表示状态量，的维度索引，p一般取1或2。
[0012]
本发明的有益效果：本方法将多智能体的任务规划问题分解成目标任务分配和多智能体路径规划两个环节，采用由智能体竞标目标任务以及由目标任务竞标智能体的双向竞标方案，通过比对双向竞标方案，达到目标任务分配的整体最优配置；通过采用多智能体交互模块，构建了一种面向智能体信息交互的多智能体状态紧凑表示方法，获得数据维度与智能体数量无关的交互信息，进而降低多对多场景下的任务规划计算复杂度，同时，通过将各智能体的循环交互单元参数互相传递，实现多智能体历史经验的平等共享，使得每个智能体在有限观察数据下，借助其他智能体经验共享获得性能提升。总体来说，本发明更有利于在多对多任务规划的高维空间更易获得更优的局部最优解。
附图说明
[0013]
图1为多智能体路径规划框架；图2为本方法的流程图。
具体实施方式
[0014]
下面结合附图和具体实施例对本发明的技术方案作进一步具体的说明。
[0015]
下面结合附图对本发明作进一步说明。
[0016]
本发明的任务规划整体框架主要由三大模块组成：多智能体模块、目标任务分配模块和多智能体路径规划模块。多智能体模块可以从当前环境中观测到状态量，如环境中的目标点、障碍区和智能体自身等位置信息，以及其空间关系信息，也可以执行具体动作，并评估环境对执行动作的反馈情况，比如用奖励值作为反馈结果。然后，通过任务分配模块进行子任务的划分；路径规划模块接收到多智能体状态信息和任务分配情况后，完成各智能体的路径规划任务；而后各智能体再执行规划得出的结果，进而与环境发生新一轮的交互。后续整个框架随着智能体与环境之间周而复始地交互进行了持续更新，最终各智能体获得较优的路径规划策略。
[0017]
本方法将多智能体对多目标的任务规划问题分解成两大步骤。首先，进行目标任务分配确定每个智能体负责的目标任务，即采用双向竞标的任务分配策略，考查由智能体竞标目标任务以及由目标任务竞标智能体两种竞标模式，对比相应的竞标方案，完成任务分配；其次，是在分配结果上实现每个智能体的路径规划。参照图1～图2，该技术方案包括以下步骤：s11：环境建模给定待求解问题，以数字化地图构建所述多智能体任务规划的环境，描述环境中要素的坐标位置，所述要素至少包括智能体、目标点、障碍物，将智能体和目标点抽象为质点，环境中的障碍物抽象为几何区域；总目标任务数为n，n记为目标任务的索引，智能体数
为m，并取m≥n。第m个智能体在第t时刻的状态量记为，其任务规划结果是获得最优的动作。多智能体的任务规划即是在当前环境下，结合所有智能体状态量构成的全局状态量，进行动作决策得到最优动作集合。设置任务分配的总收益p取最大为约束条件。
[0018]
s12：智能体竞标目标任务选择最大化的任务执行总收益的方案x，x定义为矩阵，完成智能体竞标目标任务的最优分配。vn是目标任务的执行收益，k
mn
为第m个智能体对目标任务n的匹配系数，给定竞标方案x，计算智能体竞标目标任务的总收益：
ꢀꢀꢀ
(4)其中，vn是目标任务tn的执行收益，k
mn
为第m个智能体对目标任务n的匹配系数，q
mn
为智能体m对目标任务n成功完成的概率，其取值范围为，x
mn
代表竞标方案矩阵x的元素，定义为：
ꢀꢀꢀ
（5）x
mn
=1时，表示智能体m执行目标任务n；x
mn
=0时，表示智能体m不执行目标任务n；通过选择使取最大对应的矩阵x，完成智能体竞标目标任务的正向竞标过程。
[0019]
s13：目标任务竞标智能体设置目标任务选择智能体的总收益取最大化为约束条件。um是智能体m对目标任务的执行收益，g
nm
为第n个目标任务对智能体m的匹配系数。同样，目标任务对智能体的竞标过程也是最大化总收益的方案选择，给定竞标方案y，计算目标任务选择智能体总收益为：
ꢀꢀ
(6)其中，um是智能体m对目标任务的执行收益，g
nm
为第n个目标任务对智能体m的匹配系数，q
nm
为目标任务n采用智能体m成功完成的概率，且q
nm
=q
mn
，y
nm
代表竞标方案矩阵y的元素，定义为：
ꢀꢀ
（7）ymn
=1时，表示目标任务n选择智能体m执行任务；y
mn
=0时，表示目标任务n不采用智能体m执行任务；通过选择使取最大对应的矩阵y，完成目标任务选择智能体的反向竞标过程。
[0020]
s14：将方案x和方案y的转置矩阵进行逐元素比对，若对应位置的元素取值相同，则取该位置对应的智能体和目标任务作为分配结果；若对应位置的元素取值不一致，则对方案x的不一致元素记录相应的值，对方案y的不一致元素记录相应的值；将所有记录的值按取值大小确定未分配智能体或目标任务的优先级，取值越大的对应的智能体与目标任务分配结果越优先被采纳，直至所有目标任务均分配了智能体。
[0021]
在步骤s11-s14的多智能体与目标任务一对一的分配结果基础上，各智能体依据自身的状态量，并结合其他所有智能体的状态量，完成最优的路径规划。即在第t时刻，观测到智能体m的状态量，然后基于和智能体m的动作策略获得可执行的最优动作，接着通过执行最优动作获得环境给予智能体m的奖励，并观测到最优动作执行后的新状态量，也即t 1时刻智能体m的状态量。对此智能体与环境的交互过程，使用状态量及其最优动作所获得的总奖励期望值来评判，评判策略记为。通过递推以上的过程，逐步获得动作策略的优化，最终智能体m的路径规划即为由动作策略、状态来预测最优动作的过程。
[0022]
考虑多智能体具有共性且之间存在合作机制，对于智能体m，本发明采用参数为的循环交互单元，该单元有两个输入端和一个输出端，依次为当前信息、之前交互信息和当前交互信息，其中下标i表示循环计数索引。该单元的循环递推结构为：
ꢀꢀ
(1)
ꢀꢀ
(2)
ꢀꢀ
(3)式中为矩阵的逐元素乘积，是sigmoid函数，分别为权值方阵。取，
不失一般性，记智能体m的循环交互单元所有参数为。对于智能体m，将与之交互的其他m-1个智能体的状态量循环经过此单元，得到状态量的紧凑表示，与的拼接记为智能体m的紧凑全局状态量。
[0023]
多智能体路径规划的具体实施步骤为：s21：路径规划的初始化设置。
[0024]
在t=0阶段，观测全局状态量；设定t的上限值；遍历所有智能体，按下述方式完成全部智能体的初始化，即对于智能体m，采用随机初始化的方式，随机生成动作策略的参数，并设置的最优参数，随机生成评判策略的参数，并设置的最优参数；随机初始化循环交互单元的所有参数。
[0025]
s22：设置从第m = 0个智能体开始，逐个智能体执行后续步骤s23-s29，完成路径规划与多智能体路径规划模块参数的更新。
[0026]
不失一般性，下面给出智能m的路径规划及多智能体路径规划模块参数的更新步骤，其他智能体的步骤与之相同。
[0027]
s23：计算多智能体交互信息，获得紧凑全局状态量。
[0028]
本发明的多智能体相互协同合作通过多智能体交互子模块完成，该模块包括相关性排序单元和循环交互单元。对于智能体m，子模块输入的是全局状态量，输出是隐含了交互信息的紧凑全局状态量。
[0029]
智能体m的循环交互单元输入是除智能体m之外其他智能体的状态量，这些状态量由相关性排序单元依据其与智能体m相关性进行降序排序，记l为此排序的索引，。而后，相关性最大的智能体状态量用于初始化循环交互单元的之前交互信息。排序索号为的智能体状态量按照相关性由大至小依次送入，共经历m-2次循环交互单元的迭代。智能体m与其他的任一智能体l的相关性通过其状态量间的距离来度量，相关性采用范数计算：
ꢀꢀ
(13)式中j表示状态量，的维度索引，p一般取1或2。循环交互单元的每次迭代关系依照式(1)-(3)递推。循环交互单元完成m-2次递推后输出是智能体的状态量依照相关性进行的紧凑表示。循环交互单元中调整阀控制是否忽略先前相关性弱的智能体，而关注于当前输入智能体的状态量，以便模块丢弃不相关信息，获得更紧凑的表达。调整阀
则控制当前的紧凑表示携带了多少相关性相对较弱的智能体状态量，以帮助模块建立多智能体的长程依存关系。在执行任务规划过程中，每完成一次任务规划，该智能体将其优化公式(11)迭代更新后的循环交互单元参数传递给其他智能体的循环交互单元，以保证各智能体以参数共享的方式快速优化参数，提升多智能体交互的性能。循环交互单元通过智能体之间的参数传递进行共享，即将当前的智能体m的循环交互单元参数传递给下一个智能体m 1：
ꢀꢀ
(8)式中，一般取值为0.05~0.5，减小其取值可以抑制数据噪声，但也抑制了智能体之间的信息交互。
[0030]
本步骤操作方式为：首先观测智能体的全局状态量，再通过公式(13)进行相关性计算和降序排序；然后依据相关性由大到小依次使用循环交互单元，通过评估公式(1)-公式(3)计算得到状态量的紧凑表示，进而获得紧凑全局状态量。
[0031]
s24：生成智能体的最优动作。
[0032]
基于动作策略生成最优动作为：
ꢀꢀ
(9)其中为随机噪声，其统计分布一般取标准正态分布，表示参数为时的动作策略。
[0033]
s25：评估智能体的路径规划结果。
[0034]
依据最优动作，智能体在环境中完成一次任务规划，评估此时智能体和目标任务所产生的奖励，以及其达到的新状态。
[0035]
s26：获取多智能体路径规划模块参数优化的数据包。
[0036]
存储t时刻的到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库。为了使步骤s27-s29的参数更新计算更加可靠，采用放回简单随机取样方式，从历史数据库中抽取一批数据，构成多智能体路径规划模块参数优化数据包，数据包包含k组样本，k为样本索引，，第k组样本包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量。
[0037]
s27：根据k组样本逐一计算智能体m的总奖励期望的目标值：
ꢀꢀ
(10)其中，表示以最优动作策略参数计算的最优动作，表示当前奖励的期望以最优的评价策略参数计算，为相邻两次多智能体路径规划奖励的权重系数，，为相邻两次多智能体路径规划奖励的权重系数，一般取值接近于1，以确保之前的奖励折扣后比重不至于太小而影响步骤2.8-2.9迭代结果的稳定性。
[0038]
s28：智能体m、动作策略、评判策略和循环交互单元参数通过最小化损失函数值l来优化：
ꢀꢀ
(11)其中，；则评判策略参数更新为，动作策略的参数更新为，更新为，更新步长。一般取值0.001~0.2，以保迭代下参数的稳定性，并较好抑制随机采样可能引入的样本噪声。
[0039]
s29：将智能体m的动作策略与评判策略的最优参数分别更新为：
ꢀꢀ
(12)式中，，最优取值为0.05~0.2，以保证较好抑制随机采样可能引入的样本噪声。
[0040]
同时，循环交互单元通过式(8)与其他智能体循环交互单元实现参数共享。所有智能体完成上述一次规划后，后续通过不断重复步骤s22~s29，实现规划方案的逐步优化。多智能体路径规划问题的最优解，即是以最优为参数的动作策略的最优动作选择。
[0041]
以上关于本发明的具体描述，仅用于说明本发明而非受限于本发明实施例所描述的技术方案，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换，以达到相同的技术效果；只要满足使用需要，都在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：金融衍生品价格的预测方法、预测装置、存储介质和设备与流程

一种面向多智能体任务规划的复杂优化方法与流程

相关文献

最热文献