一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向非时敏移动目标跟踪的单星自主任务调度方法及系统

2022-07-16 13:57:32 来源:中国专利 TAG:


1.本发明属于卫星任务规划领域领域,尤其是涉及一种面向非时敏移动目标跟踪的单星自主任务调度方法及系统。


背景技术:

2.非时敏移动目标是一类具备低速运动特征的移动目标,典型的非时敏目标如海面舰船、地面车辆等。面向非时敏移动目标跟踪的单星自主任务调度问题(single-satellite autonomous task scheduling problem,ssatsp)是一类面向动态目标的跟踪问题,其目标状态是不断变化的。为了响应目标的不确定性,结合星上图像识别能力,需要星上快速自主调度并生成调度方案。
3.新一代敏捷卫星具备灵活的三轴姿态机动能力,扩展了对目标的观测窗口;传统的“地面规划 星上执行”管控模式对移动目标响应严重滞后,星上计算能力的增强以及ai技术的发展为星上自主智能提供了前提,带来解决滞后短板的契机。敏捷能力带来了时间依赖特征的约束,使得卫星规划调度变得更为复杂;对移动目标的及时响应依赖快速度、高质量以及精细化的自主任务调度。
4.现有技术采用启发式算法求解质量较差,采用元启发式算法求解所需时间较长,无法实现对移动目标动态不确定性特征的及时响应。同时,星上涉及的运控约束纷繁复杂,需要精准规避约束冲突。快速度、高质量以及精细化求解该调度问题是实现对非时敏移动目标及时响应的关键。


技术实现要素:

5.本发明要解决的技术问题是怎样快速度高质量的进行非时敏移动目标的跟踪调度问题,提出了一种面向非时敏移动目标跟踪的单星自主任务调度方法及系统。
6.为解决上述技术问题,本发明所采用的技术方案是:
7.一种面向非时敏移动目标跟踪的单星自主任务调度方法,包括以下步骤:
8.步骤1:采集非时敏移动目标任务集;
9.步骤2:根据所述非时敏任务集构建单星自主任务调度优化模型;
10.步骤3:对所述单星自主任务调度优化模型进行求解得到单星自主任务调度方案;
11.步骤4:输出所述单星自主任务调度方案。
12.进一步地,所述单星自主任务调度优化模型为:
13.目标函数:
14.约束条件:
15.[0016][0017][0018][0019][0020][0021][0022][0023][0024][0025]
其中,式1表示最大化完成任务的优先级总和,x
ij
表示0-1决策变量, x
ij
=1表示在调度序列解中任务i为任务j的紧前任务;prij表示任务j的优先级,n
tsk
表示待规划任务数目;
[0026]
式2表示卫星的硬时间窗口约束,即任务必须在卫星可见时间窗口内观测; wbi表示卫星对任务i的可见时间窗口的开始时间,wb0=0,tbi表示卫星对任务i的开始观测时间,tb0=0表示卫星初始状态时间,tei表示卫星对任务 i的结束观测时间,te0=0表示卫星初始状态时;wei表示卫星对任务i的可见时间窗口结束时间,wb0=0;
[0027]
式3表示任务的成像开始、结束与持续时间的等式关系;cti表示卫星对任务i的持续观测时间,ct0=0;
[0028]
式4表示的式任务之间时间依赖转换时间约束;trans(eai,baj)表示任务i 与任务j之间的姿态转换时间;
[0029]
式5表示卫星的固存约束,即单轨内消耗电量不能超过卫星剩余电量阈值; uie表示进行成像时单位时间消耗的电量,单位unit,ute表示进行姿态机动时单位时间消耗的电量,单位unit;ζ表示卫星剩余电量阈值比例;
[0030]
egymax表示卫星最大电量总量,单位unit;
[0031]
eai表示卫星对任务i的结束观测姿态,由侧摆θi,tei,俯仰φi,tei与偏航ψi,tei三轴姿态向量构成,ea0为卫星初始姿态,bai表示卫星对任务i的开始观测姿态,由侧摆θi,tbi,俯仰φi,tbi与偏航ψi,tbi三轴姿态向量构成,ba0为卫星初始姿态;
[0032]
式6表示每个任务最多存在一个紧前任务;
[0033]
式7表示每个任务最多存在一个紧后任务;
[0034]
式8表示任务既不能是自己的紧前任务也不能作为自己的紧后任务,只能够完成一次;式9表示决策变量的值域;
[0035]
式10表示两姿态之间的最短姿态转换时间计算方式,ρij表示卫星在任务i 与任务j之间的姿态转换角度;b0、b1、b2、b3、b4、a0、a1、a2、a3、a4、 z0、z1、z2、z3为预先设置的常量;
[0036]
式11表示两姿态之间的转换角度计算方式,θi,t表示卫星在时刻t对任务i的观测侧摆角,tei表示卫星对任务i的结束观测时间,te0=0表示卫星初始状态时,φi,t表示卫星在时刻t对任务i的观测俯仰角,ψi,t表示卫星在时刻t对任务i的观测偏航角。
[0037]
进一步地,步骤3中对所述单星自主任务调度优化模型进行求解的方法是:将所述单星自主任务调度优化模型中的每个目标任务看作一个图节点,任务之间的关系看作图中的加权边关系,构建多个瞬态下的时姿邻接图模型,对所述时姿邻接图模型进行求解,得到所述单星自主任务调度优化模型的解。
[0038]
进一步地,所述时姿邻接图模型的构建方法是,以卫星运行的时间线为水平轴,以过顶时刻侧摆姿态角为纵向轴,以过顶时间和过顶侧摆皆为0的点(0,0)为参考基准点,在坐标系下,将每个任务视作图中的一个节点,每个节点对应的坐标由卫星过顶时间与对应侧摆角构成,每个节点具有该结点对应的任务的属性,节点i与节点j之间的边权重由任务i与任务j之间的姿态转换时间trans(eai,baj)表示。
[0039]
进一步地,对所述时姿邻接图模型进行求解的方法是根据瞬态时姿邻接图使用图注意力网络模型结构决策下一任务节点,在得到下一任务节点后更新瞬态时姿邻接图进行下下一个任务节点的决策,依次类推,得到调度解序列。
[0040]
进一步地,使用图注意力网络模型结构决策下一任务节点的方法是:
[0041]
采集当前状态下的图特征,包括节点特征向量和边特征矩阵;
[0042]
对所述节点特征向量和边特征矩阵进行归一化处理;
[0043]
将归一化处理后的节点特征向量和边特征矩阵输入到图注意力网络结构中,得到下一任务节点的节点选择概率,选择具有最大概率的节点作为解序列上的一个节点。
[0044]
进一步地,所述节点特征向量中的每个节点具有8个特征属性: prii,cti,wbi,wei,每条边具有5个特征属性: d
ij

[0045]
其中,prii表示节点i的优先级属性;
[0046]
表示节点i对应任务的过顶时间;
[0047]
表示节点i对应任务的过顶侧摆角;
[0048]
cti表示节点i对应任务的持续观测时间;
[0049]
wbi表示节点i对应任务的可见时间窗口开始时间;
[0050]
wei表示节点i对应任务的可见时间窗口结束时间;
[0051]
表示节点i对应的任务是否为当前状态待选择的任务的标识;
[0052]
表示节点i对应的任务是否为当前已调度序列中最后一个任务的标识;
[0053]dij
表示时姿坐标下与边关联的两节点距离;
[0054]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序第一的节点标识;
[0055]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序第五以内的节点标识;
[0056]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序第十以内的节点标识;
[0057]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序二十以内的节点标识。
[0058]
进一步地,所述图注意力网络结构为9层深度学习网络,前面四层为嵌入层,全部采用单层gat网络,后面五层全部为全连接层,在网络终端使用mask机制筛选违反约束的节点对应的任务。
[0059]
进一步地,对所述图注意力网络模型进行训练的方法是基于ppo策略的网络模型训练方法,所述ppo策略是指基于actor-critic学习框架,actor网络负责生成动作并和环境进行交互,critic网络负责评估actor网络表现并进行误差反馈,最后每次学习迭代将采用复制actor网络方式更新critic网络,两者不断进行交互提升达到网络参数的最优化。
[0060]
进一步地,所述节点特征向量和边特征矩阵f1=8, f2=5,网络层中的传递过程为:
[0061]
(1)嵌入层网络传递(l∈[1,4]),l表示网络层标识l∈[1,9]∧l∈n


[0062]
节点特征数据v在嵌入层网络传递依序采用式(12)、(13)与(14)方式进行,其中满足式(15)所示条件,层与层之间采用relu函数激活。边特征数据e在嵌入层网络传递采用式(16)方式进行,其中满足式(17)与(18)所示条件,层与层之间同样采用relu函数激活。
[0063][0064][0065][0066][0067][0068]
[0069][0070]
f3为图注意力网络结构除去两端的中间网络层结构的维度,为第l层的节点训练参数向量;为第l层的边训练参数向量;
[0071]
为图注意力权重,为第l层的图注意力权重;
[0072]
(2)中间层及隐藏层网络传递,l∈[5,8]
[0073]
中间层及隐藏层全部为全连接层,输入与输出的维度皆为f3,其数据传递采用式(19)所示方式,层与层之间同样采用relu函数激活;
[0074][0075]
(3)输出层网络传递(l=9)
[0076]
输出层亦为全连接层,输出的维度为1,其数据传递采用式(20)所示方式;
[0077][0078]
本发明还提供了一种面向非时敏移动目标跟踪的单星自主任务调度系统,包括以下模块:
[0079]
采集模块:用于采集非时敏移动目标任务集;
[0080]
优化模型构建模块:用于根据所述非时敏任务集构建单星自主任务调度优化模型;
[0081]
求解模块:用于对所述单星自主任务调度优化模型进行求解得到单星自主任务调度方案;
[0082]
输出模块:输出所述单星自主任务调度方案。
[0083]
采用上述技术方案,本发明具有如下有益效果:
[0084]
本发明提供的一种面向非时敏移动目标跟踪的单星自主任务调度方法及系统,通过构建单星自主任务调度模型,然后将任务看作一个个节点,将单星自主任务调度模型转化为各种瞬态下的时姿邻接图模型,使用图注意力网络模型进行预测下一个任务节点,通过一步步的预测,得到调度解序列。为了使用图注意力网络模型,也提取了节点特征向量和边特征矩阵,并使用ppo策略对图注意力网络模型进行训练。使用图注意力网络模型进行求解的方法,提高了求解效率,从而能够快速给出调度方案。
附图说明
[0085]
图1为本发明系统流程图;
[0086]
图2为基于时姿坐标的邻接图模型示意图;
[0087]
图3为基于瞬态时姿邻接图的ssatsp问题序列解构造;
[0088]
图4为边特征矩阵和节点特征向量示意图;
[0089]
图5为单星自主任务调度问题的gat网络结构示意图;
[0090]
图6为ssatsp问题求解框架。
具体实施方式
[0091]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0092]
面向非时敏移动目标跟踪的单星自主任务调度问题属于一类复杂约束条件下的组合优化问题,其目的是通过快速选择成像任务、调度任务成像时间以形成任务调度序列作为卫星的成像方案,实现卫星对观测任务的总收益最大化。任务来源于多星协同任务分配到单星上的任务,其包含了任务优先级、成像时长、可见时间窗口及姿态等多属性信息。为快速响应移动目标的动态不确定性,需要对分配任务实现快速高效的调度,因此,利用机器学习方法速度快、效果佳的优势求解单星自主任务调度问题 (single-satellite autonomous task scheduling problem,ssatsp)问题是最佳的选择。由于多个任务可以视作多个图节点,任务间的关系可以视作图中的加权边关系,所以ssatsp可以转化为图问题并结合图神经网络进行求解,但关键在于构建合适且合理的图模型。本发明将面向非时敏移动目标跟踪的ssatsp问题建模为一类具有时间依赖约束特征的组合优化问题进而引入时姿邻接图模型,形成问题形象化的图模型描述。为了构建合适的模型,本发明做了如下假设:
[0093]
1)卫星搭载可见光载荷与sar载荷,无论搭载哪种载荷的平台都具备敏捷的三轴姿态机动能力,能够形成对目标的一段观测窗口。
[0094]
2)同一卫星同一时刻只能有一个载荷工作,sar载荷在每一时刻只能处于一种成像模式。
[0095]
3)卫星每一圈次为一个调度周期,在卫星工作期间卫星能保持一定的充电速率,在保证一定电量使用比的前提下,能够保证在下一圈次电量回复如初。
[0096]
4)忽略卫星固存约束。星上具备图像识别能力之后,对于不具备参考信息的无价值图像能够选择不回传而直接擦除。同时,对于移动目标可以提取其态势描述信息与观测缩略图回传,这些数据量相比传统回传的高分数据图像要小很多。卫星能够利用过境时的测控窗口直接将有效信息回传并释放固存。因此,固存约束将不再是紧约束。
[0097]
5)卫星进行成像与姿态机动都会产生电量消耗,且电量消耗分别与成像时长与姿态机动时长成正比。
[0098]
6)卫星对目标成像采用匀地速成像方式,对任务的观测时长与任务的生成条带长度(网格边长)成正比,这些在任务生成时已经考虑。
[0099]
7)忽略卫星对目标成像观测角度对成像分辨率的影响。由于星上图像识别准确率依赖成像分辨率,但是成像角度对成像分辨率的影响是不及载荷工作模式的,同时在任务预处理中可以通过窗口裁剪限制卫星对目标的成像观测角度以满足星上图像识别要求,因此本研究不考虑成像观测角度对成像分辨率的影响。
[0100]
图1至图6示出了本发明一种面向非时敏移动目标跟踪的单星自主任务调度方法的具体实施例,如图1所示,包括以下步骤:
[0101]
步骤1:采集非时敏移动目标任务集;
[0102]
步骤2:根据所述非时敏移动目标任务集构建单星自主任务调度优化模型;
[0103]
目标函数:
[0104]
约束条件:
[0105][0106][0107][0108][0109][0110][0111][0112][0113][0114][0115]
其中,式1表示最大化完成任务的优先级总和,x
ij
表示0-1决策变量, x
ij
=1表示在调度序列解中任务i为任务j的紧前任务;prij表示任务j的优先级,n
tsk
表示待规划任务数目;
[0116]
式2表示卫星的硬时间窗口约束,即任务必须在卫星可见时间窗口内观测; wbi表示卫星对任务i的可见时间窗口的开始时间,wb0=0,tbi表示卫星对任务i的开始观测时间,tb0=0表示卫星初始状态时间,tei表示卫星对任务 i的结束观测时间,te0=0表示卫星初始状态时;wei表示卫星对任务i的可见时间窗口结束时间,wb0=0;
[0117]
式3表示任务的成像开始、结束与持续时间的等式关系;cti表示卫星对任务i的持续观测时间,ct0=0;
[0118]
式4表示的式任务之间时间依赖转换时间约束;trans(eai,baj)表示任务i 与任务j之间的姿态转换时间;
[0119]
式5表示卫星的固存约束,即单轨内消耗电量不能超过卫星剩余电量阈值; uie表示进行成像时单位时间消耗的电量,单位unit,ute表示进行姿态机动时单位时间消耗的电
量,单位unit;ζ表示卫星剩余电量阈值比例;
[0120]
egymax表示卫星最大电量总量,单位unit;
[0121]
eai表示卫星对任务i的结束观测姿态,由侧摆θi,tei,俯仰φi,tei与偏航ψi,tei三轴姿态向量构成,ea0为卫星初始姿态,bai表示卫星对任务i的开始观测姿态,由侧摆θi,tbi,俯仰φi,tbi与偏航ψi,tbi三轴姿态向量构成,ba0为卫星初始姿态;
[0122]
式6表示每个任务最多存在一个紧前任务;
[0123]
式7表示每个任务最多存在一个紧后任务;
[0124]
式8表示任务既不能是自己的紧前任务也不能作为自己的紧后任务,只能够完成一次;式9表示决策变量的值域;
[0125]
式10表示两姿态之间的最短姿态转换时间计算方式,ρ
ij
表示卫星在任务i 与任务j之间的姿态转换角度;b0、b1、b2、b3、b4、a0、a1、a2、a3、a4、 z0、z1、z2、z3为预先设置的常量;
[0126]
式11表示两姿态之间的转换角度计算方式,θi,t表示卫星在时刻t对任务i的观测侧摆角,tei表示卫星对任务i的结束观测时间,te0=0表示卫星初始状态时,φi,t表示卫星在时刻t对任务i的观测俯仰角,ψi,t表示卫星在时刻t对任务i的观测偏航角。
[0127]
步骤3:对所述单星自主任务调度优化模型进行求解得到单星自主任务调度方案。本实施例中求解的方法是将所述单星自主任务调度优化模型中的每个目标任务看作一个图节点,任务之间的关系看作图中的加权边关系,构建多个瞬态下的时姿邻接图模型,对所述时姿邻接图模型进行求解,得到所述单星自主任务调度优化模型的解。对所述时姿邻接图模型进行求解的方法是根据瞬态时姿邻接图使用图注意力网络模型结构决策下一任务节点,在得到下一任务节点后更新瞬态时姿邻接图进行下下一个任务节点的决策,依次类推,得到调度解序列。
[0128]
本实施例中,卫星对每个过境的任务都存在一个观测窗口,当卫星经过目标正上方时(过顶时刻),此时,卫星对目标的观测俯仰角为0。所述时姿邻接图模型的构建方法是,以卫星运行的时间线为水平轴,以过顶时刻侧摆姿态角为纵向轴,以过顶时间和过顶侧摆皆为0的点(0,0)为参考基准点,如图2所示,在坐标系下,将每个任务视作图中的一个节点,每个节点对应的坐标由卫星过顶时间与对应侧摆角构成,每个节点具有该结点对应的任务的属性,节点i与节点j之间的边权重由任务i与任务j之间的姿态转换时间trans(eai,baj)表示。构建了时姿邻接图模型后,单星自主调度优化问题的优化目标就转化为从虚拟节点0出发寻找一条满足所有约束的路径,使得路径上所有节点的优先级和最大。
[0129]
由于时姿邻接图模型是静态的,不能很好地描述问题中时间依赖的转换时间约束特征。因此,将单星自主调度优化问题转化成多个瞬态下的时姿邻接图,在每一个时间点的瞬态下,时姿邻接图模型中已决策节点的时间固定,根据瞬态时姿邻接图决策需要选择的任务节点,依次构造出问题的序列解。如图3所示,在每次决策中根据瞬态时姿邻接图以及最优决策网络能够决策下一任务节点,在得到下一任务节点的决策之后更新下一个瞬态的时姿邻接图以进行下下一个任务节点的决策,依次类推,这样就能构造出问题的最优调度序列解{0,2,3,5,6,7}。
[0130]
本实施例中,使用图注意力网络模型结构决策下一任务节点的方法是:
[0131]
1)采集当前状态下的图特征,包括节点特征向量和边特征矩阵,如图 4所示的边特征矩阵和节点特征向量示意图。
[0132]
为了使用图注意力网络模型进行求解,需要提取时姿邻接图模型的特征向量,本实施例中,提取的是节点特征向量v和边特征矩阵e。节点特征向量中是所有的节点,每个节点具有8个属性特征 prii,cti,wbi,wei,边特征指的是两两节点之间的关系,边特征矩阵e具有5个属性特征d
ij

[0133]
2)对所述节点特征向量和边特征矩阵进行归一化处理。本实施例中,为了增强图注意力网络模型的泛化能力,避免数据分布差异带来的网络决策效果弱化或者失效。对节点特征向量和边特征矩阵进行归一化处理。归一化处理后的边特征矩阵e中每个元素满足时姿邻接图是一个无自环的完全图,e矩阵不存在对角线元素,每个节点都具备独立的节点特征,所有节点特征可以构造出节点特征向量v,节点特征向量每个维度的元素满足节点属性特征prii表示节点i的优先级属性;优先级属性表征了任务的重要性,同时也是系统优化获取最大效益的度量。对其进行归一化得到取最大效益的度量。对其进行归一化得到pri
max
为最大优先级。
[0134]
节点属性特征表示节点i对应任务的过顶时间;过顶时间作为时姿坐标维度之一,能够衡量任务的属性特征。对其进行归一化得到为:
[0135]
t
plan
表示单次规划周期时长。
[0136]
节点属性特征表示节点i对应任务的过顶侧摆角;过顶侧摆作为时姿坐标之一,能够表征目标位置,影响姿态转换计算。
[0137]
θ
max
表示卫星最大侧摆姿态角。
[0138]
节点属性特征cti表示节点i对应任务的持续观测时间;持续观测时间能够衡量任务对资源的消耗,纳为节点特征之一。其归一化后表示为cti∈[ct
min
,ct
max
],ct
min
、ct
max
分别为任务的最短、最长持续观测时间。
[0139]
节点属性特征wbi表示节点i对应任务的可见时间窗口开始时间;可见窗口开始时间表征了任务能够被开始观测的时间,对任务的选择调度具有重要意义。其归一化后表示为
[0140]
节点属性特征wei表示节点i对应任务的可见时间窗口结束时间;可见窗口结束时间表征了任务能够被最晚观测的时间,对任务的选择调度具有重要意义。其归一化后表示为
[0141]
节点属性特征表示节点i对应的任务是否为当前状态待选择的任务的标识;对于每个图状态,需要通过网络进行决策下一个选择的任务,影响任务的选择在于能够
判别任务是否在候选任务之内。当节点i对应的任务在候选任务之内,否则不需要归一化。
[0142]
节点属性特征表示节点i对应的任务是否为当前已调度序列中最后一个任务的标识;用来表示节点i对应的任务是否为当前决策状态对应的任务,其与作为问题重要的状态属性,在推进序列解的构造中发挥着关键作用。判断是否为当前已调度序列中最后一个任务,若是,则否则,不需要归一化。
[0143]
边特征d
ij
表示时姿坐标下与边关联的两节点距离;为表征该特征在时间依赖姿态转换时间约束上的影响,对于特征d
ij
也采用曼哈顿距离计算,
[0144][0145]
其中,tw
max
是卫星对目标的最长时间窗口长度,是卫星的最大俯仰角,对特征d
ij
进行归一化可以得到归一化的特征如下:
[0146][0147]
其中,θ
max
卫星最大侧摆角,t
plan
为任务规划周期,通常设置为卫星单轨时长。
[0148]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序第一的节点标识;即对于k∈ni,ni为节点i的所有邻居节点编号集合,对所有d
ik
进行升序排序,若d
ij
排在第一,则否则,不需要归一化。
[0149]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序第五以内的节点标识;即对于k∈ni,ni为节点i的所有邻居节点编号集合,对所有 d
ik
进行升序排序,若d
ij
排在前五,则否则,不需要归一化。
[0150]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序第十以内的节点标识;即对于k∈ni,ni为节点i的所有邻居节点编号集合,对所有d
ik
进行升序排序,若d
ij
排在前十,则否则,不需要归一化。
[0151]
表示时姿坐标下邻居节点j是否为与节点i距离升序排序二十以内的节点标识。即对于k∈ni,ni为节点i的所有邻居节点编号集合,对所有d
ik
进行升序排序,若d
ij
排在前二十,则否则,不需要归一化。
[0152]
3)将归一化处理后的节点特征向量和边特征矩阵输入到图注意力网络结构中,得到下一任务节点的节点选择概率,选择具有最大概率的节点作为解序列上的一个节点。本实施例中,如图5所示,将当前状态下提取的时序邻接图中的图特征即节点特征向量和边特征矩阵输入到图注意力网络结构中,并在网络终端通过mask机制对不可行动作进行规避,最终输出动作的评分,得到节点的选择概率,然后将具有最大概率的节点作为解序列上的一个节点。
[0153]
从图5可以看出,所述图注意力网络结构为9层深度学习网络,属于典型的深度学习网络,前面四层为嵌入层,全部采用单层gat网络,后面五层全部为全连接层,在网络终端使用mask机制筛选违反约束的节点对应的任务。通过注意力机制对边与节点属性进行加权并更新新的节点属性特征,需要注意的是,更新后的节点属性维度与提取的输入特征维度不一致。后面五层全部为全连接层,仅仅负责图节点特征的更新,其中,第五层为中间层,负责网络维度的转换,第六至第八层为隐藏层,其维度保持一致,最后一层为输出层,其输出维度为1。整个网络对节点的特征更新是独立于图结构的,意味着仅仅对特征进行加权,所以学习得到的决策网络不受图节点规模的影响,并且不同节点规模图训练得到的网络参数数量是相等的,这凸显了图注意力网络在泛化能力上的优势。
[0154]
对于输入的节点特征向量和边特征矩阵f1=8,f2=5,为了避免复杂化网络,本发明采用的gat网络结构除去两端的中间网络层结构的维度保持一致,统一为f3。提取特征数据在网络层中的传递过程如下:
[0155]
(1)嵌入层网络传递(l∈[1,4]),l表示网络层标识l∈[1,9]∧l∈n


[0156]
节点特征数据v在嵌入层网络传递依序采用式(12)、(13)与(14)方式进行,其中为第l层的节点训练参数向量,满足式(15)所示条件,层与层之间采用relu函数激活。边特征数据e在嵌入层网络传递采用式 (16)方式进行,其中为第l层的边训练参数向量,满足式(17)与 (18)所示条件,
[0157]
层与层之间同样采用relu函数激活。
[0158][0159][0160][0161][0162][0163][0164][0165]
f3为图注意力网络结构除去两端的中间网络层结构的维度;
[0166]
为图注意力权重,为第l层的图注意力权重;
[0167]
(2)中间层及隐藏层网络传递(l∈[5,8])
[0168]
中间层及隐藏层全部为全连接层,输入与输出的维度皆为f3,其数据传递采用式(19)所示方式,层与层之间同样采用relu函数激活;
[0169][0170]
(3)输出层网络传递(l=9)
[0171]
输出层亦为全连接层,输出的维度为1,其数据传递采用式(20)所示方式;
[0172][0173]
本实施例中,在网络终端使用mask机制筛选违反约束的节点对应的任务,了规避不可行的动作选择,即对于违反约束的节点对应的任务,采用mask 机制控制其输出评分为零。若节点i的mask标签为mi,当在决策下一个节点时,若节点i对应的任务违反约束,则mi=0,否则mi=1。若最终输出节点i的评分为则可以依序通过式(21)、(22)、(23)与(24)所示方式实现mask机制。
[0174][0175][0176][0177][0178]
本实施例中,对所述图注意力网络模型进行训练的方法是基于ppo策略的网络模型训练方法,所述ppo策略是指基于actor-critic学习框架,actor 网络负责生成动作并和环境进行交互,critic网络负责评估actor网络表现并进行误差反馈,最后每次学习迭代将采用复制actor网络方式更新 critic网络,两者不断进行交互提升达到网络参数的最优化。对于面向非时敏移动目标跟踪的ssatsp问题,目前缺乏标准的有监督学习数据,只能通过无监督习来实现问题本质规律的挖掘。强化学习(reinforcementlearning,rl)作为当前计算时代热门的机器学习方法,属于典型的无监督学习方法,能够完成数据自生成、自采集以及模型自训练、自提升,很适合解决序列化建模的面向非时敏移动目标跟踪的ssatsp问题。本发明采用高效的强化学习方法实现对gat决策网络训练,获取最优决策网络达到对问题的有效求解。
[0179]
如图6所示的ssatsp问题求解框架,从问题实例即任务集的获取、建模即根据任务集构建模型、特征提取即提取任务特征、网络设计、网络模型的训练、基于网络求解到方案输出的整个流程,重点在于基于网络的求解与网络模型的练。基于网络的问题求解是一个序列化解构造的过程,通过循环调用最优决策网络实现对调度序列解的构造,该过程与网络训练过程中在每个episode采集学习数据的过程是一致的。
[0180]
本实施例中,对于图注意力网络模型进行训练时,输入的是每一个瞬态下时姿邻接图的图特征向量,即边特征矩阵和节点特征向量{e,v}。图注意力网络的状态states指的是时姿邻接图的特征向量集合,集合中每一个元素对应一个状态即每一个瞬态下的图特征向量,也就是提取的时姿邻接图的边与节点特征{e,v}。动作(actions)指的是在某一状态下所有可选择的决策对象,本发明中,一个行动对应了时姿邻接图中的一个节点,也是卫星任务规划中的一个任务。状态转移(transition)指的是在某一状态下决策选择某一行动导致问题状态改变的过程,本发明在选择一个任务之后问题直接转移到下一个状态。奖励指的是在某状态下决策选择某一动作带来的系统性收益变化。从单步决策角度来看,动作的奖励就是选择节点对应任务的优先级收益,可以乘上折扣因子。策略指的是当通过决策网络计算好待选择节点的评分之后,进行动作选择的方法。本发明中存在两种动作选择策略,在网络训练过程中采用依输出概率抽样选择或者也可以看做轮盘赌方式选择,当采用网络进行求解时则采用贪婪规则选择输出概率评分最大的节点。
[0181]
步骤4:输出所述单星自主任务调度方案。
[0182]
本发明还提供了一种面向非时敏移动目标跟踪的单星自主任务调度系统,包括以下模块:
[0183]
采集模块:用于采集非时敏移动目标任务集;
[0184]
优化模型构建模块:用于根据所述非时敏任务集构建单星自主任务调度优化模型;
[0185]
求解模块:用于对所述单星自主任务调度优化模型进行求解得到单星自主任务调度方案;
[0186]
输出模块:输出所述单星自主任务调度方案。
[0187]
本发明从训练过程的分析实验中,检测训练的效果以及分析训练的收敛性,当达到1000个episode的时候,网络收益变化开始趋于平缓,后续基本稳定。这说明gat网络在ppo算法的训练下收敛迅速,训练效果显著。在40000个episode的训练之后,网络基本稳定收敛,能够得到趋于最优的决策网络。
[0188]
在对算法的可行性分析中,主要是通过实例的测试,检测通过gat网络决策得到的解是否可行,是否违反了卫星的约束。为了达到这个目的,实验同样针对以40,60,80和100为任务规模的算例进行解的溯源分析。实验从解的可视化来进行可行性分析,包括两种可视化图:调度序列图与时姿邻接图。调度序列图以卫星运行时间为x轴,以任务id为y轴,能够展示任务的窗口、优先级属性以及调度任务的序列和持续时间等信息。在任务调度序列图中,序列表征的节点路线图是无法交叉的,因为卫星同一时间不可能执行两个任务,任务间不可能无缝连接,因为存在姿态转换时间。时姿邻接图以时间为x轴,以过顶侧摆角为y轴,时姿邻接图中任务以单一坐标存在,无法展示窗口。由于时姿邻接图只能够展示坐标信息,与现实世界的观测路径有一定的坐标映射关系,能够很好的展示卫星的观测路径,其次也能展示卫星姿态变化幅度。在时姿邻接图中,观测路径是可以交叠的,因为其时间仅仅为静态坐标,无法表征任务执行时间。通过时姿邻接图可以判断卫星是否存在大角度机动不合理性,缺乏对机动路径上任务的兼顾。在四种规模下,调度序列路线不存在交叠,每个任务存在一定执行时间,任务间存在不等的姿态转换时间,调度结果中,卫星趋向于完成任务优先级较高的任务。从时姿邻接图中可以发现,卫星执行的观测路径存在交叠,这是由于任
务存在更长的观测窗口,能够在非过顶点完成观测,此外,卫星在较大姿态机动时能够兼顾路径上的其他任务,避免不合理的大角度姿态机动。从两种图的角度,能够看到,gat网路对问题的调度是可行的,能够很好的利用有限的卫星资源,实现最高的观测收益。此外,对于四种规模下的调度,在个人笔记本中,不存在gpu加速的情况下,四中规模的调度时间分别为0.65s、1.16s、1.98s和3.12s。对于一个np-hard问题来说,存在指数爆炸求解空间情况下展现出来优异的调度性能,为星上实现完全自主自动化调度提供可能,后续将进一步分析算法的效能。
[0189]
本发明通过构建单星自主任务调度模型,然后将任务看作一个个节点,将单星自主任务调度模型转化为各种瞬态下的时姿邻接图模型,使用图注意力网络模型进行预测下一个状态下的节点,通过一步步的预测,得到调度解序列。为了使用图注意力网络模型,也提取了节点特征向量和边特征矩阵,并使用ppo策略对图注意力网络模型进行训练。使用图注意力网络模型进行求解的方法,提高了求解效率,从而能够快速给出调度方案。
[0190]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献