技术新讯 > 电子通信装置的制造及其应用技术 > 一种多用户高可靠低时延场景下联合码长和功率分配方法及系统 > 正文

一种多用户高可靠低时延场景下联合码长和功率分配方法及系统

国知局
2024-08-08 16:56:15

本技术涉及无线通信领域，具体来说是一种面向多用户高可靠低时延通信场景下的联合码长和功率分配方法及系统。

背景技术：

1、5g时代，通信从人与人的连接拓展到了人与物、物与物的海量连接。作为5g垂直行业应用的关键技术之一，urllc为高可靠和低时延的通信应用提供支持，其特点可概括为高可靠性、低延迟、高密度连接和灵活性四点。在理论上，urllc通过缩小编码长度来满足这些需求。根据polyanskiy等人给出的在有限码长情况下解码错误概率的建模，可以知道，为了满足多用户的高可靠性要求，往往需要分配足够的功率和码长，但基站能提供的能源是有限的，因此，如何提高urllc场景下的能源效率已成为一个亟待解决的问题。

2、在拥有精确的信道状态信息(channel state information，csi)时，可以通过传统方法(比如凸优化等)实现对资源的合理分配来提高能源效率。但urllc场景下用户需求多元、动静状态差异较大，而且urllc的小包单次传输时间往往远小于csi的反馈周期，传统方法基于这种非完美反馈信息的资源管理方案往往过于保守，需要消耗更多的能源来保障高可靠性的需求。针对这种情况，可以采用深度强化学习来试探寻求更好的分配方案，实现能源效率的提升。然而，深度强化学习也不可避免地存在非监督学习稳定性不高的问题。

3、基于此，本发明提出了一种面向urllc多用户场景，基于凸优化和深度强化学习的功率码长联合分配技术。在csi精确的时刻，采用连续凸近似的方法对功率和码长进行联合分配；在csi不精确的时刻，采用深度强化学习对功率和码长进行联合分配，同时，针对深度强化学习的不稳定性，本发明利用精确csi下凸优化获得的数据辅助进行弱监督学习来改善。

技术实现思路

1、本发明针对urllc高可靠要求、有限码长通信、多用户通信需求的场景下资源有限的问题，提出了一种多用户高可靠低时延场景下联合码长和功率分配方法。在获得精确csi的时刻，采用凸优化方法对功率和码长进行联合分配；在获得的csi不精确的时刻，针对凸优化方案在资源分配上过于保守的问题，采用深度强化学习对功率和码长进行联合分配。同时，针对深度强化学习不稳定的问题，引入凸优化的数据辅助进行弱监督学习来提高深度强化学习的稳定性。

2、本发明解决其技术问题所采用的技术方案是:

3、一种多用户高可靠低时延场景下联合码长和功率分配方法，包括以下步骤：

4、步骤1：在单个基站的覆盖区域内，n个用户按照各自的轨迹运动，首先，用户根据基站以周期t1发送的导频信号测量得到下行链路csi，并将测量得到的csi周期性上报给基站，基站根据接收到的csi，在有限的功率和码长总资源下，基于最大化能源效率构建优化问题p1，并在每个局部点的局部问题进行建模为局部点处的问题p2：

5、步骤2：每一轮信息的发送，基站查看是否收到用户上报的csi，如果接收到csi，则判断csi精确，执行步骤3，如果没有接收到csi，则利用之前接收到的csi即过期csi，执行步骤4；

6、步骤3：当csi精确时，采用连续凸近似算法分配功率和码长，将局部点处的问题p2近似成凸问题p3进行求解，基站按照分配方案把信息发送给用户，相应数据存入经验池a，用户解码并反馈是否错误，从而得到误码率，进而计算相应奖励rt；

7、步骤4：当csi过期时，采用基于td3网络的深度强化学习解决p1的功率和码长联合分配问题，基站按照分配方案把信息发送给用户，相应数据存入经验池b，用户解码并反馈是否错误，从而得到误码率，进而计算相应奖励rt；

8、步骤5：判断当前时隙t是否是所设置的监督训练周期t的整数倍，如果是，基站根据csi精确时的功率码长分配结果进行监督训练，更新强化学习网络参数，训练数据来自经验池a；如果不是，基站根据csi过期时用户反馈的误码率计算奖励rt进行无监督训练，从而更新强化学习网络参数，训练数据来自经验池b。

9、进一步地，所述步骤1中最大化能源效率η为：

10、

11、其中，n是用户总数目，mn是分配给第n个用户的码长，pn是分配给第n个用户的功率，kn是发送给第n个用户的信息长度，ts是基站给每个用户传输单位长度的包所需时长即符号周期。

12、进一步地，所述优化问题p1为：

13、p1

14、

15、pn≤p,n＝1,…,n,

16、

17、根据有限码长定理，对εn建模为：

18、

19、其中，m为基站可以利用的总码长，p为基站可以利用的总功率，εn为第n个用户的误块率，是第n个用户允许的最大误块率；

20、信噪比hn为信道向量，从接收到的csi中获取，σ2为噪声功率，q(*)为高斯q-函数，信道色散

21、进一步地，所述步骤1中，优化问题p1在局部点处的问题p2为：

22、p2

23、

24、pn≤p,n＝1,…,n,

25、

26、在任务要求确定的情况下，任务信息长度kn确定，即为定值，而ts也是定值。

27、进一步地，所述步骤3将局部点处的问题p2近似成凸问题p3：

28、p3

29、

30、pn≤p,n＝1,…,n,

31、ρn≥x0,n＝1,…,n,

32、

33、其中，fτ(m1,…,mn,p1,…,pn)为根据柯西不等式构造的函数，

34、将上一时刻的信道向量和分配方案同这一时刻的信道向量组成一个状态，并将该状态同分配方案奖励rt一起作为一个样本存入经验池a。

35、进一步地，

36、其中，cτ为辅助常量，且cτ>0，其中，在局部点处，当且仅当时，等号成立，在局部点处，目标函数可以近似为凸函数fτ(m1,…,mn,p1,…,pn)，其中辅助常量

37、进一步地，所述步骤4包括：基于td3算法，将状态、动作、奖励分别设置如下：

38、状态设置为：

39、

40、动作设置为：

41、基站分配给各个用户的码长和功率，具体如下：

42、

43、奖励设置为：

44、

45、其中，表示当前时隙t下n个用户的信道向量、表示上一个时隙n个用户的信道向量、表示上一个时隙分配给每个用户的码长、表示当前时隙分配给每个用户的码长、表示上一个时隙分配给每个用户的功率、表示当前时隙分配给每个用户的功率；εn为用户n反馈误码率，r0用于调节奖励使其在1～10的范围内，其具体依据实验测定，

46、在某个时隙t下，整个分配过程为：基于过期csi估算当前信道向量，构建环境状态并输入给网络td3，网络输出相应的分配方案，也就是动作，基站按照动作指示将信息发送给各个用户，并接收到用户反馈的误码率，基站再根据误码率计算得到相应的奖励，将这一次的将状态、动作奖励rt一起作为一个样本存入经验池b。

47、进一步地，当csi过期时，基于从最近的一次csi中获得的信道向量估算当前的信道向量

48、

49、其中，是相干因子，δ为复高斯随机变量。

50、另一方面，本发明提供一种多用户高可靠低时延场景下联合码长和功率分配系统，包括：

51、模块一：其用于在单个基站的覆盖区域内，n个用户按照各自的轨迹运动，首先，用户根据基站以周期t1发送的导频信号测量得到下行链路csi，并将测量得到的csi周期性上报给基站，基站根据接收到的csi，在有限的功率和码长总资源下，基于最大化能源效率构建优化问题p1，并在每个局部点的局部问题进行建模为局部点处的问题p2：

52、模块二：其用于对每一轮信息的发送，基站查看是否收到用户上报的csi，如果接收到csi，则判断csi精确，执行模块三中的步骤，如果没有接收到csi，则利用之前接收到的csi即过期csi，执行模块四中的步骤；

53、模块三：其用于当csi精确时，采用连续凸近似算法分配功率和码长，将局部点处的问题p2近似成凸问题p3进行求解，基站按照分配方案把信息发送给用户，相应数据存入经验池a，用户解码并反馈是否错误，从而得到误码率，进而计算相应奖励rt；

54、模块四：其用于当csi过期时，采用基于td3网络的深度强化学习解决p1的功率和码长联合分配问题，基站按照分配方案把信息发送给用户，相应数据存入经验池b，用户解码并反馈是否错误，从而得到误码率，进而计算相应奖励rt；

55、模块五：其用于判断当前时隙t是否是所设置的监督训练周期t的整数倍，如果是，基站根据csi精确时的功率码长分配结果进行监督训练，更新强化学习网络参数，训练数据来自经验池a；如果不是，基站根据csi过期时用户反馈的误码率计算奖励rt进行无监督训练，从而更新强化学习网络参数，训练数据来自经验池b。

56、与现有技术相比，本发明具有如下有益效果：

57、相比于在传统香农域下的讨论，本发明考虑了urllc场景下小包传输的特点，利用有限码长定理进行建模，同时减少了一些不必要的近似，更贴近真实情况。同时，考虑到csi反馈不及时情况下凸优化分配策略保守的问题，本发明提供了一种适合csi精确以及csi过期场景下的功率码长联合分配算法，在csi精确时利用凸近似对问题进行解决，在csi过期时利用深度强化学习对问题进行解决。不仅如此，本发明引入了监督学习来辅助强化学习网络的训练，在将精确csi情况下的计算数据作为监督训练的数据，从而提高了强化学习网络分配的稳定性和精确性。总之，本发明解决了传统算法在urllc场景下对资源进行联合分配的局限性，在保障通信可靠性的同时提高了多用户系统的整体能源效率。