一种基于MEC与数字孪生的空地网络优化方法及系统
- 国知局
- 2025-01-10 13:31:15
本发明属于但不限于通信,尤其涉及一种基于mec与数字孪生的空地网络优化方法及系统。
背景技术:
1、近年来,随着物联网设备的激增,传统的地面网络越来越不能满足广泛的需求,同时也面临着许多挑战:(1)时延敏感性:许多智能物联网应用对服务响应时间具有严格的要求,即低延迟需求。然而,由于设备体积和能力的限制,终端设备往往难以满足这些严苛的时延要求。(2)能耗密集型应用:智能应用通常是能耗密集型或计算密集型,需要消耗大量能量。这导致用户终端或物联网设备的电池寿命大幅缩短。(3)无线资源稀缺性:随着大量智能终端和物联网设备的接入,有限的无线频谱资源变得日益紧张。当前网络在容纳这些迅速增加的终端设备时面临巨大压力。在这种背景下,空地一体化网络的概念应运而生。通过结合不同层以提供更大的覆盖范围、更高的吞吐量、灵活的部署和强大的弹性。其中,无人机的集成为空地一体化网络带来了独特的价值。无人机作为一种典型的机载设备,已成为执行各种智能任务的关键工具,如实时图像处理、环境监测和应急响应。然而,为了使空地一体化网络高效运行,必须处理和分析无人机在执行任务期间产生的大量数据。在这种需求的推动下,mec技术被引入空地一体化网络。mec通过将计算能力部署在离数据源更近的网络边缘,可以显著降低数据处理延迟,提高系统响应速度。因此,在无人机上部署mec可以使数据处理更接近数据源,从而减少数据传输延迟和带宽需求。这种部署方法允许无人机在任务执行期间进行实时数据分析和决策。
2、将mec和无人机结合到空地一体化网络架构使用时,还需要解决一些挑战。
3、1)能耗及设备寿命问题
4、当mec和无人机相结合时,无人机在执行任务期间需进行密集的计算和数据处理。特别是在任务卸载和资源分配的过程中,其计算资源的高消耗显著增加。无人机的硬件资源和预期使用寿命受限,频繁的计算和数据存储活动会加速硬件的磨损,缩短其寿命。在执行任务时涉及大量的数据写入和存储操作,不仅对无人机的即时性能构成挑战,还可能导致其性能下降甚至失效。因此,mec系统中频繁的任务执行和数据存储活动,限制了无人机的可靠性和持久性。
5、2)处理能力问题
6、在无人机执行任务期间,需要进行密集的实时数据流处理和决策制定,这对其计算能力提出了显著的挑战。受限于无人机如中央处理单元(cpu)和随机存取内存(ram)的硬件资源,其在处理复杂任务时能力面临挑战。由于无人机的能源供应主要依赖于电池,从而限制了其在高负载计算任务中的持续运行能力。此外,频繁的任务卸载和资源分配决策增加了计算资源的负担,导致数据处理的延迟和系统性能的降低。
7、3)数据实时更新问题
8、无人机在动态任务执行中需频繁获取和处理数据,这对mec系统的即时数据处理能力提出了高要求。数据传输的延迟、分布式mec环境中的数据一致性问题、有限的通信带宽限制了数据传输速率,进而影响数据的实时更新。同时,频繁的数据传输和处理增加了无人机的能耗,可能缩短其电池寿命。此外,系统在面对环境干扰时的可靠性也是确保数据更新连续性和准确性的关键挑战。
9、4)动态优化问题
10、在基于无人机和mec的场景中,环境通常具有高度动态性,并且目标通常被定义为长期目标。在这种情况下,我们需要设计性能更高的算法,以实现目标优化,同时具有低复杂度和良好的性能。
11、鉴于上述分析,现有技术存在的急需解决的技术问题为:现有文献没有考虑到由于无人机本地存储资源受限而引起的资源分配问题,也没有深入探讨ues与无人机关联策略、卸载模式选择和任务卸载比例的优化问题,以及尽管部分文献考虑了数据分配和卸载优化问题,但是忽略了过程中产生的经济开销。在空地一体化网络赋能mec的场景中其他设备往往具有高动态性,这对算法提出更高的性能,因而难以求解。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种基于mec与数字孪生的空地网络优化方法及系统。
2、本发明是这样实现的,一种基于mec与数字孪生的空地网络优化方法,利用深度强化学习(deep reinforcementlearning,drl)的主策略网络和评论家网络进行智能体的学习与决策;初始化策略网络和评估网络的参数,并设置训练相关超参数;智能体根据当前策略与环境交互,执行动作并更新状态;利用经验回放缓冲区存储经验,并在达到容量时更新以保持最新的学习经验;采用损失函数计算和梯度下降法对主策略网络和评论家网络进行参数更新;定期进行目标网络中策略网络和价值网络参数的软更新,以确保学习稳定性;持续训练至策略收敛,随后应用该策略完成任务分配与轨迹规划。
3、进一步,基于mec与数字孪生的空地网络优化方法具体包括:
4、s101、初始化智能体的主策略网络和评论家网络的参数θj和ωj,目标策略网络和评论家网络的参数和回合数mp,最大训练步数tmax,初始化评论家网络和策略网络对应的学习率α和β,折扣因子γ,初始化回放缓冲区大小w、mini-batch的大小n、和用于动作探索的噪声ψ(t);初始化网络布局参数,如ue数量i、无人机的数量j等参数。
5、s102、初始化智能体状态,智能体与环境交互,主策略网络根据当前策略生成动作。
6、s103、智能体执行主策略网络生成的动作,获得奖励,并更新状态。
7、s104、将经验元组存入经验回放缓冲区。当缓冲区达到容量上限时,通过覆盖最旧的经验数据来引入最新获取的经验。
8、s105、更新主策略网络和评论家网络参数。
9、s106、根据td目标和评论家网络预测的价值函数计算评论家网络的损失函数,从经验回放缓冲区中抽取样本,采用梯度下降法更新目标策略网络和评估网络。
10、s107、过小批量经验样本更新主策略网络和评论家网络的参数。
11、s108、采用软更新机制实现目标网络中策略网络和价值网络的参数更新。
12、s109、迭代训练直至算法稳定收敛,应用该策略于智能体,实现最优的任务分配和轨迹规划。
13、进一步,所述s102、初始化智能体的状态,智能体与环境互动,主策略网络基于当前策略生成动作,智能体的状态表示为:
14、
15、其中uj(t-1)=(xj(t-1),yj(t-1),hj(t-1)),表示无人机j在时隙t-1结束时的三维坐标,对应于时隙t的起始点;d(t)={di(t)},表示ue在时隙t内的任务输入数据大小;λ(t)={λi(t)},表示时隙t内ue的任务处理密度;表示时隙t内计算资源分配;表示无人机j在时隙t结束时的剩余能量;;表示每架无人机的时间寿命指标,且规定每架无人机的初始寿命为0。
16、进一步,所述s103:智能体执行主策略网络生成的动作,获得奖励,并更新状态,状态更新中奖励reward的计算公式如下:
17、
18、上式中代表系统中每个智能体载重执行动作后获得的即时奖励。
19、进一步,所述s105:更新主策略网络和评论家网络参数;通过梯度上升更新当前策略网络如下:
20、
21、进一步,所述s106:根据td目标和评论家网络预测的价值函数计算评论家网络的损失函数,从经验回放缓冲区中抽取样本,采用梯度下降法更新目标策略网络和评估网络。td目标可由下式给出:
22、
23、损失函数可以由下式给出:
24、
25、然后通过梯度下降更新主价值网络当前价值网络的参数wj如下:
26、
27、进一步,所述s108:采用软更新机制实现目标网络中策略网络和价值网络的参数更新;软更新公式如下:
28、
29、
30、其中θj代表当前策略网络的参数,代表目标策略网络的参数,wj代表当前价值网络的参数,代表目标价值网络的参数,χ∈[0,1]。
31、本发明的另一目的在于提供一种实现所述基于mec与数字孪生的空地网络优化方法的基于mec与数字孪生的空地网络优化系统,包括:
32、系统初始化模块,用于用于初始化深度确定性策略梯度算法参数,包含设置回合数mp,最大训练步数tmax,初始化评论家网络和策略网络对应的学习率α和β,折扣因子γ,初始化回放缓冲区大小w、mini-batch的大小n;
33、网络构建模块,用于动作探索的噪声ψ(t);初始化网络布局参数,如ue数量i、无人机的数量j等网络布局参数;
34、智能体模块,用于每个周期开始时基于当前网络状态生成动作,具备在这些行为中添加探索性噪声的功能,以便在执行过程中引入一定的随机性;
35、动作执行模块,用于执行资源分配和任务卸载策略;
36、奖励获取模块,用于执行动作并计算即时奖励,根据系统所有设备的长期平均效用来评估奖励,并将系统从当前状态转移至下一状态的状态转移模块;
37、经验回放模块,用于存储每一次的系统状态、执行的动作、所获奖励和下一状态的经验元组;
38、数据抽样模块,用于从存储的经验回放模块中抽取mini-batch经验进行学习;
39、网络更新模块,用于根据经验回放模块的数据更新主策略网络和主价值网络,包括一个参数优化单元,使用梯度上升法和梯度下降法来调整网络参数;
40、参数更新模块,用于将主网络的参数更新同步到目标策略网络和目标价值网络,采用软更新策略,使得目标网络的参数是主网络参数的加权平均值,并通过参数同步单元实现这一同步过程。
41、本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的基于mec与数字孪生的空地网络优化方法的步骤。
42、本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的基于mec与数字孪生的空地网络优化方法的步骤。
43、本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端包括所述的基于mec与数字孪生的空地网络优化系统。
44、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
45、第一,本发明提升了网络覆盖范围和服务质量。在空地一体化网络架构中,无人机作为关键的空中节点,能够为偏远地区提供更广阔的网络覆盖。通过无人机辅助的边缘缓存系统,我们能够高效地处理计算任务,合理分配计算资源和任务划分,从而弥补地面基站覆盖范围的不足。本发明的整合对于在空地一体化环境中加强网络的覆盖范围和服务质量具有重要意义
46、本发明将mec与无人机辅助的空地一体化网络相结合,为网络服务提供了更高效和可扩展的解决方案。无人机的强大网络覆盖性可以改善仅通过地面基站处理任务的局限性。通过将mec系统与无人机辅助的空地一体化网络的结合,可以实现更快速的任务处理,减少任务处理时延。这种结合为网络服务的可扩展性提供了更大的空间,能够更好地应对不断增长的数据处理需求,并且能够满足偏远地区的任务需求,使整个系统更具有可持续性。
47、本发明通过采用数字孪生技术,实现了对物理网络环境的实时监控和动态映射,从而提高了网络管理的效率和响应速度。通过将物理网络映射到数字网络,实现对网络状态的全面监控和实时映射,从而优化网络性能和资源分配。数字孪生技术的应用不仅提高了网络的智能化水平,也为网络的预测性维护和故障诊断提供了强有力的支持。
48、本发明根据实际的动态环境,为无人机和地面基站之间的协同工作提供了优化策略。通过与实验数据比较,证实该动态的资源分配方法比传统的静态资源分配方法更加准确,能够更好地模拟实际环境,操作简便,具有更高的实时性,更接近真实场景,有利于网络优化和系统性能的提升。
49、第二,本发明具体取得的显著技术进步,在于实现了一种由无人机辅助的空地一体化网络结合边缘计算系统与数字孪生的联合优化方法,该方法在以下几个关键方面取得了显著的进步:
50、1)高效的资源分配:
51、该方法通过优化资源分配,显著提升了无人机辅助的空地一体化网络中的资源利用率。这包括更有效地分配带宽资源给无人机和基站,以实现高效协同处理任务。这种优化不仅提升了系统性能,还降低了能耗。
52、2)合理的任务划分策略:
53、通过将输入数据进行合理分配,实现了一种智能的任务划分策略,系统能够根据无人机的能力和网络条件动态调整任务处理,智能地调整是由无人机还是基站进行处理,从而适应网络的动态变化。这增强了网络的稳定性和用户体验。
54、3)强化学习的集成:
55、通过结合drl算法与mec,无人机辅助的空地一体化网络能够实时分析数据并自主适应环境变化,从而在复杂动态的条件下做出最优的决策。
56、4)系统效用优化:
57、方法中包含的奖励机制特别关注于减少无人机及地面设备的系统总效用,通过奖励机制优化能耗,提高能效,同时对环境友好。
58、5)系统稳定性和可靠性的提升:
59、通过精确计算无人机执行任务后的即时反馈,并优化其状态转移过程,该方法显著提升了系统在面对大规模数据处理和高密度请求时的稳定性与可靠性。
60、6)网络的自主学习和优化能力:
61、该方法通过不断的迭代训练和基于经验的网络更新,使得系统能够不断优化其决策过程,从而提高整体性能。
62、7)数字孪生技术的应用:
63、该方法利用数字孪生技术,构建了一个高度精确的虚拟网络映射系统,实现了对物理网络环境的实时监控和动态映射,提高了网络管理的效率和响应速度。
64、这些技术的综合应用显著提升了无人机辅助的mec网络系统在多个方面的表现,包括性能、能源效率、稳定性和适应性,有效支持了现代计算的复杂需求。
65、第三,本发明提供的基于空地一体化网络和深度强化学习相结合的边缘计算系统优化方法,其核心在于使用数学模型来指导系统的行为和学习过程。可以根据这些数学模型的特点来探讨它们带来的技术效果:
66、1)即时奖励的计算
67、本方法通过即时奖励的计算,专注于提升系统所有设备的总体效用。
68、能效优化:通过将奖励机制与系统效用直接相关联,鼓励系统探索减少能耗的策略,实现更高的能源效率。
69、成本节约:随着系统效用的持续优化,长期来看,可以显著降低运营成本,尤其在能源消耗较高的边缘计算环境中。
70、2)主策略网络和评论家网络的更新
71、采用随机抽样的小批量经验数据,通过梯度上升法对当前策略网络进行更新。
72、策略优化:系统通过不断调整策略网络的参数,学习并采纳更高效的决策策略。
73、响应性提高:利用小批量数据更新策略,使网络能够迅速响应环境变化,提升了系统的即时调整能力。
74、3)td目标和评论家网络的损失函数
75、基于时间差分(td)目标和评论家网络预测的q值来计算损失函数,并通过梯度下降法更新。
76、学习稳定性:采用td目标作为学习的基础,有助于平衡学习过程,减少因预测误差过大引起的学习波动。
77、性能优化:通过精确计算损失函数并及时更新网络参数,系统能够提高决策的准确性和执行效率。
78、4)参数更新公式
79、描述了主策略网络和评论家网络如何更新目标网络的参数,涉及到当前网络与目标网络参数的同步。
80、策略逐渐逼近:通过逐步调整目标网络参数,系统能够平稳地采纳新策略,避免因策略突变而引发的性能波动。
81、持续学习和适应:这种持续的参数更新机制使系统能够长期适应环境的变化,保持学习与适应的连续性。
82、本发明提供的数学模型的应用,不仅提高了系统的运行效率和决策质量,还增强了系统对环境变化的适应能力和长期稳定性,并通过整合3d轨迹优化、卸载和缓存策略优化以及数字孪生技术,实现了对网络状态的实时监控和映射。这些技术效果对于现代边缘计算环境中处理大量数据和高频交互至关重要。
83、第四,本发明提供的基于mec与数字孪生的空地网络优化方法及系统采用了深度强化学习技术,通过智能体与环境的交互来优化网络的性能。
84、初始化智能体的状态,智能体的状态包括多个变量,例如:任务输入数据量、任务处理密度、任务处理截止时间、估计计算资源分配量、每架无人机初始剩余能量、iot设备与无人机的水平距离、无人机的飞行高度、环境相关参数、路径损耗参数。这些变量共同定义了智能体在特定时刻的环境状态,进而影响智能体的决策。
85、智能体依据主策略网络确定的动作执行任务,执行相应动作后,智能体根据所获结果获得相应的奖励,并根据奖励和执行结果,进行状态的更新和转移。奖励的计算基于系统所有设备的长期平均效用,这是系统设计的核心目标,目的是最小化整个系统的总效用。
86、通过梯度上升方法调整策略网络的参数,有助于策略网络生成更优的动作,通过优化策略网络,进一步实现对整个系统运行性能的优化。
87、利用时间差分(td)目标和评论家网络预测的价值函数来计算损失函数,并通过梯度下降法更新目标策略网络和评论家网络的参数,是深度强化学习中价值函数更新的关键步骤,这一过程通过提高预测的准确性来引导策略的持续改进,从而优化整个系统的运行性能。
88、软更新法更新目标网络,软更新法是一种渐进式参数更新技术,它通过计算目标网络参数与当前网络参数的加权平均值来平滑地调整目标网络,这种方法有助于减少学习过程中可能出现的剧烈波动,确保了整个学习过程的平稳性和稳定性。
89、这些步骤和数学模型的应用,带来了显著的技术进步:
90、策略优化:深度强化学习使系统能够自主学习并优化策略,以适应无人机辅助的空地一体化网络环境中的动态变化。
91、资源高效利用:通过优化任务卸载与资源分配,确保了无人机网络中有限的资源得到高效利用,尤其是在3d轨迹优化和数据卸载、缓存策略中。
92、系统效用最小化:系统通过优化长期平均效用,支持绿色通信,减少对环境的影响,这对于无人机的能源管理和mec的能效优化尤为重要。
93、系统稳定性:采用软更新方法确保了学习过程的平稳,降低了因参数快速更新带来的系统不稳定风险,这对于维护数字孪生映射的准确性和网络状态监控至关重要。
94、网络状态实时监控:数字孪生技术的应用实现了对物理网络状态的实时映射和监控,为系统提供了对网络运行状况的深入洞察,使得策略优化和资源分配能够基于最准确的网络信息进行。
95、这些进步体现了深度强化学习在构建智能、高效的空地一体化通信网络中的潜力,特别是在无人机辅助、mec支持和数字孪生技术集成的复杂网络系统中。
96、第五,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
97、1、填补技术空白:
98、本发明的技术方案通过集成mec与数字孪生技术,为空地网络优化领域提供了一种全新的解决方案。这种融合方法利用了mec的低延迟和高带宽特性,以及数字孪生在虚拟空间中对实体世界的映射和仿真能力,解决了现有技术中单一网络架构的局限性。
99、2、解决技术难题:
100、该技术方案针对空地网络中的高时延敏感性、能耗密集型应用以及无线资源稀缺性等挑战,提出了有效的解决策略。它通过mec的边缘计算能力,实现了业务的本地化处理,降低了时延,并通过数字孪生技术对网络进行实时监控和优化,提高了资源利用率和系统性能。
101、3、克服技术偏见:
102、本发明的技术方案克服了传统网络优化方法中对中心化处理的依赖,通过mec实现了去中心化的数据处理和决策。同时,它还利用数字孪生技术提供了一种新的网络状态评估和预测手段,克服了以往技术中对于单一维度优化的偏见,实现了对网络性能的全面优化。
本文地址:https://www.jishuxx.com/zhuanli/20250110/353652.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表