技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于IRS和NS辅助的车辆数字孪生体更新方法  >  正文

一种基于IRS和NS辅助的车辆数字孪生体更新方法

  • 国知局
  • 2024-08-02 13:54:01

本发明涉及到车联网通信,具体涉及一种基于irs和ns辅助的车辆数字孪生体更新方法。

背景技术:

1、车辆数字孪生(vehicle digital twin,vdt)作为一种有前途的技术,可以支持车辆的不同服务质量需求的应用,如视频流、自动驾驶等。车辆数字孪生技术是对物理现实中车辆的高保真数字表示,同时监控物理车辆的整个生命周期。vdt的最大优势是对收集到的车辆信息进行数字建模,以构建与各车辆实体一样逼真的数字孪生。另一方面,每个实体车辆的vdt间可以进行通信,构成车辆数字孪生体网络,通过车辆数字孪生网络,vdt间可共享彼此的知识。

2、车辆和vdt间的数据传输和vdt的计算需要极低时延才能保证vdt的实时性,因此可将vdt放置在边缘服务器上,以减少将vdt放置在云服务器导致的高时延。然而,vdt需保证其隔离性。尽管已有研究从不同角度来保证实体和数字孪生体间的通信低时延,然而目前很少有文献考虑vdt的隔离性,导致车辆用户设备(vehicle user equipment,vue)和vdt的通信性能不佳。

3、网络切片(network slicing,ns)可在同一物理网络基础设施上划分为多个逻辑独立的虚拟网络。每个网络切片都是一个隔离网络,其包含自己独特的延迟、吞吐量、安全性,可以灵活应对不同的需求和服务,因此针对vdt的隔离性和不同vdt更新要求,我们可以采用网络切片保证vdt的隔离性以及实时更新的要求。但是,城市建筑密度的增加会极大地影响移动车辆和基站之间的无线通信信道,从而导致切片中车辆的数字孪生体数据传输性能不佳,因此必须为车辆提供更大的带宽资源。然而由于频谱资源稀缺,导致通过切片改善传输性能的成本过高。

4、作为6g中有前途的技术之一,智能反射面(intelligent reflecting surface,irs)是由嵌入在超表面上的低成本的被动散射元件制成,通过在环境中部署irs,例如涂覆在建筑物墙壁上,irs可以将无线电环境变成一个智能空间,可以通过重建无线传播环境来提高无线网络性能,且帮助增强数据速率。对于vue来说,可以通过对irs的反射元件根据无线信道的状态按需配置,以控制无线的传播环境,从而大大改善车辆的通信。但截至目前,尚未有将irs应用到vdt的同步中。

5、尽管过去有不少文献分别对网络切片和irs的智能配置进行研究,但截至目前尚未有将网络切片和irs联合在一起应用在vdt的实时更新中。另外,由于车辆和无线环境的动态变化性,深度强化学习通常被用于解决车辆网络中网络切片的资源分配和irs的智能配置,ddpg和td3作为一种可适用于连续动作的确定性策略梯度算法,因其输出的动作是一个确定值,避免了随机策略梯度的大量运算,因此被广泛应用在资源管理中。然而在动作空间较大时,ddpg和td3可能不能获得较好的资源分配动作且收敛慢。

6、综上所述,我们需要一种车辆通信方法,以在irs和ns的辅助下保证车辆数字孪生体的实时更新和隔离性,并解决强化学习中因动作空间过大导致的次优解和收敛慢的问题,以在有限的资源内获得更佳的数字孪生体更新时间,从而改善车辆和vdt之间的信道条件,保证车辆数字孪生体更新时获得更好的传输性能。

技术实现思路

1、针对现有技术的不足,本发明的目的是提供一种基于irs和ns辅助的车辆数字孪生体更新方法,通过智能反射面和网络切片辅助能够有效保证车辆数字孪生体的隔离和更新的及时性,并通过设计的基于actor-critic框架的改进深度强化学习算法以分配通信资源、计算资源和调节irs的相移,能够有效解决传统算法因动作空间大而陷入次优解的问题和收敛慢的问题。

2、为达到上述目的,本发明采用的技术方案如下:

3、一种基于irs和ns辅助的车辆数字孪生体更新方法,其关键在于,包括如下步骤:

4、步骤1、构建基于智能反射面和网络切片辅助的车辆数字孪生通信系统模型;

5、步骤2、根据车辆数字孪生通信系统模型,建立车辆级别资源分配、车辆切片级别资源分配以及智能反射面控制的目标函数以最大化车辆数字孪生的长期效用;

6、步骤3、采用基于演员评论家框架的改进强化学习算法对目标函数进行求解,获得车辆级别资源分配策略、车辆切片级别资源分配策略以及智能反射面配置参数;

7、所述基于演员评论家框架的改进强化学习算法求解目标函数的步骤如下:

8、步骤3.1、基于目标函数,定义马尔科夫决策过程中状态、动作、奖励、状态转移矩阵、折扣因子;

9、步骤3.2、建立基于演员评论家框架的求解模型;

10、所述基于演员评论家框架的求解模型包括演员组件和评论家组件,其中:

11、所述演员组件包括演员网络和非线性优化器;

12、所述演员网络用于从数字孪生环境中获取每个车辆当前时间步的观测状态并生成每个车辆的第一动作;

13、所述非线性优化器用于根据输入的第一动作对不同切片内的各车辆进行通信资源分配和计算资源分配,获得车辆级别资源分配策略,并生成第二动作;

14、所述演员组件将第一动作和第二动作组成联合动作后在数字孪生环境中执行,并输出车辆切片级别资源分配策略与智能反射面配置参数;

15、所述评论家组件用于对联合动作的执行情况进行评论,以指导所述演员组件的训练过程;

16、步骤3.3、对所述基于演员评论家框架的求解模型进行训练;

17、步骤3.4、在所述基于演员评论家框架的求解模型训练完成后获得最优的车辆级别资源分配策略、车辆切片级别资源分配策略以及智能反射面配置参数;

18、步骤4、所述车辆数字孪生通信系统模型基于获得的车辆级别资源分配策略、车辆切片级别资源分配策略以及智能反射面配置参数进行车辆数字孪生体更新。

19、进一步的,所述车辆数字孪生通信系统模型包括多个车辆用户设备、多个基站、多个边缘服务器、若干智能反射面,所述车辆用户设备通过蜂窝网络接入基站,每个基站均配备一个边缘服务器。

20、进一步的,所述目标函数的建立步骤如下:

21、根据构建的车辆数字孪生通信系统模型,确定基站控制器为每个车辆数字孪生体切片分配的总通信资源和总计算资源,并确定分配给各切片中各个车辆用户设备的通信资源和计算资源;

22、根据车辆在某个时隙的上行数据速率确定满足其要求的最小数据吞吐量;

23、根据车辆用户设备任务队列的平均卸载时延,确定能够保证卸载队列稳定的第一约束条件;

24、根据车辆用户设备在某个时隙的任务更新平均时延,确定能够保证更新任务队列稳定的第二约束条件;

25、根据车辆数字孪生体更新所需要的总时延,确定能够满足其更新需求的第三约束条件;

26、确定智能反射面中各反射元件的相移范围;

27、根据分配给每个车辆数字孪生体切片的总通信资源和总计算资源、分配给各切片中各个车辆用户设备的通信资源和计算资源、最小数据吞吐量、第一约束条件、第二约束条件、第三约束条件、各反射元件的相移范围构建所述目标函数。

28、进一步的,所述目标函数的表达式为:

29、

30、

31、

32、

33、

34、

35、

36、

37、

38、

39、0<cv,n,b(t)≤1,

40、θm(t)∈[0,2π],

41、其中,wn(t)和cn(t)为基站b的控制器在时隙t为不同更新需求的车辆切片n分配的通信资源和计算资源,w和c分别是基站控制器为每个车辆数字孪生体切片分配的总通信资源和总计算资源,rv,n,b(t)为时隙t时与基站b关联的车辆v可获得的上行数据速率,为车辆数字孪生体的上行数据速率要求的最小数据吞吐量,dv,n,b为车辆v的数据孪生体更新数据大小,λv,n,b为车辆v的数字孪生体更新任务到达率,o表示计算密度,cv,n,b(t)为时隙t时分配给车辆v的计算能力,tv,n,b(t)为车辆数字孪生体更新所需要的总时延,为车辆数字孪生体的最大更新时间,为基站控制器控制的数字孪生体集合,表示第n个切片,切片n服务的车辆用户集合表示为ub,n,v,ub,n,v表示切片n服务的车辆v,表示时隙间隔为△t的集合,表示第t个时隙,表示车辆v的集合,表示第v个车辆,表示基站的集合,m∈μ表示智能反射面的第m个反射元件。

42、进一步的,步骤3.3中所述基于演员评论家框架的求解模型的训练过程如下:

43、步骤s1、输入车辆用户设备所处数字孪生环境;

44、步骤s2、初始化基于演员评论家框架的求解模型中actor网络、critic网络、target actor网络、target critic网络的网络参数以及经验回放池d,设置迭代总次数和聚合总次数;

45、步骤s3、重置车辆用户设备所处数字孪生环境并获得车辆初始状态s0;

46、步骤s4、在每个时间步观测数字孪生环境获得车辆当前状态st,使用actor组件中actor网络生成动作并将该动作输入所述非线性优化器对不同切片内的车辆进行通信资源和计算资源分配,获得车辆级别资源分配策略,并生成动作将动作和动作组合成联合动作

47、步骤s5、执行联合动作获得奖励rt,并进入下一状态st+1;

48、步骤s6、将经验(st,at,st+1,rt)存储到经验回放池d;

49、步骤s7、从经验回放池d中随机采样k个小批量经验,并计算td-target;

50、步骤s8、采用梯度下降法最小化critic网络的损失函数,并更新critic网络的网络参数;

51、步骤s9、依次更新actor网络、target actor网络、target critic网络的网络参数;

52、步骤s10、判断是否超过设定的迭代总次数,若是则停止迭代并进入步骤s11,否则返回步骤s4进行循环迭代;

53、步骤s11、判断聚合次数是否达到设定的聚合总次数,若是则停止迭代,获得车辆切片级别资源分配策略、智能反射面配置参数,否则返回步骤s3继续执行直至达到聚合总次数。

54、进一步的,所述非线性优化器采用sqp算法或内点法进行车辆通信资源和计算资源分配。

55、进一步的,步骤s4中所述非线性优化器采用sqp算法对不同切片内的车辆进行通信资源和计算资源分配时,具体步骤如下:

56、步骤a1、将目标函数转化为如下每个切片中收益的优化问题:

57、

58、

59、

60、

61、

62、

63、

64、0<wj(t)≤1,

65、0<cj(t)≤1,

66、其中,ren(t)表示切片n中所有车辆的收益,j={1,2,...,j}表示车辆j的集合,j∈j为切片n中的第j个车辆,rj(t)为时隙t时车辆j可获得的上行数据速率,dj为车辆j的数据孪生体更新数据大小,λj为车辆j的数字孪生体更新任务到达率,wj(t)和cj(t)为在时隙t为车辆用户设备j分配的通信资源和计算资源,o表示计算密度,tj(t)为车辆数字孪生体更新所需要的总时延,为切片n中车辆数字孪生体的最大更新时间;

67、步骤a2、输入动作

68、步骤a3、初始化车辆级别资源分配初值w0、c0以及拉格朗日乘子μ0”、μ0',容差ε,令k=0以及b0=i;

69、步骤a4、计算gk、aek、aineqk、ak、ek,并将所述优化问题简化成如下的二次规划子问题:

70、

71、s.t.aekδ=-ak,

72、aineqkδ≥-ek,

73、其中,δ是变量的增量,δt是矩阵δ的转置,k表示第k次二次规划子问题,bk为拉格朗日函数的hessisan矩阵,令f(x)=-ren(t),x={w,c},ei表示所述优化问题中第i个相等约束左侧的表达式,ek=[e1(xk),e2(xk)]t,ai表示所述优化问题中第i个不等式约束左侧的表达式,ak=[a1(xk),...,a3j(xk)]t;

74、步骤a5、求解所述二次规划子问题得到δ(w,c),并计算出ηk+1',η”k+1,η″′k+1、μ″k+1、μ′k+1;

75、步骤a6、通过线搜索计算步长αk;

76、步骤a7、设置wk+1=wk+αkδ(w,c),ck+1=ck+αkδ(w,c);

77、步骤a8、判断|δ(w,c)|≤ε是否成立,若是则输出最优的车辆级别资源分配策略w*=wk+1、c*=ck+1,否则通过拟牛顿法修正bk+1;

78、步骤a9、令k=k+1,返回步骤a4进行迭代循环。

79、本发明的显著效果是:

80、1、通过利用网络切片和irs联合辅助车辆数字孪生体的实时更新,保证了车辆数字孪生体的实时更新和隔离性,避免了真实场景中大量业务的存在可能导致信道堵塞或计算资源不足的缺陷;

81、2、设计的基于actor-critic框架的改进强化学习算法,该算法中actor部分中包含两层,其中第一层的actor网络用于为具有不同更新需求的车辆用户设备在切片级别分配通信资源和计算资源,第一层actor网络输出的irs配置和切片间资源分配动作作为第二层优化器的输入,第二层为一个基于sqp的优化工具,用于为不同的车辆用户设备分配通信资源和计算资源,减少了actor部分神经网络输出的动作空间,可有效提高效用并加快收敛,从而解决了强化学习中因动作空间过大导致的次优解和收敛慢的问题。

本文地址:https://www.jishuxx.com/zhuanli/20240801/241018.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。