技术新讯 > 电子通信装置的制造及其应用技术 > 基于强化学习的多链路分配方法及装置、STA、AP、介质与流程 > 正文

基于强化学习的多链路分配方法及装置、STA、AP、介质与流程

国知局
2024-10-15 09:56:12

本申请涉及无线通信，例如涉及一种基于强化学习的多链路分配方法及装置、sta、ap、介质。

背景技术：

1、目前，mlo(multi-link operation)为802.11be(wi-fi 7)标准下的关键技术。mlo技术可使sta(站点，station)连接至不同的频段(2.4hz/5hz/6ghz)和信道上，并同时进行数据的发送和接收。mlo存在以下技术优势：第一，通过链路聚合大幅度提升数据传输速率。第二，通过多链路并发降低数据传输时延。第三，通过在不同的链路上传输相同的数据或者根据链路的质量无缝切换链路，提升数据传输的可靠性。由于mlo技术具有高传输速率、时延低以及可靠性高的多项优势，因此，mlo技术能够提升vr(virtual reality，虚拟现实)和ar(augmented reality，增强显示)等对网络带宽和时延具有较高要求的应用体验，有助于wi-fi向工业领域的应用拓展。

2、mlo允许在单一频段上建立多链路。例如，一sta(non-access-point station)在2.4ghz的单一频段上，向ap(access point，无线接入点)请求链路1、链路2和链路3三条链路。同时，该sta发送的请求中包括有本机low-sta(简称lsta)对应端口的端口信息。该sta在获得ap发送的响应后，可在链路1、链路2和链路3三条链路上同时进行数据传输，从而实现多链路的数据传输。

3、在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：

4、目前，mlo具有多链路构建方案以及多链路传输方案。在多个sta同时与一ap进行多链路的数据传输的情况下，会存在两个以上sta抢占链路资源的情况，同时，存在部分链路未被sta利用的情况。导致系统吞吐量低下。因此，在mlo中，如何实现多链路资源的合理分配，减少其他sta对本sta数据传输的干扰，提高系统吞吐量，成为当前亟需解决的技术难题。

5、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

2、本公开实施例提供了一种基于强化学习的多链路分配方法、装置、sta、ap和介质，以实现多链路资源的合理分配，减少其他sta对本sta数据传输的干扰，提高系统吞吐量。

3、在一些实施例中，所述方法应用于站点sta，该方法包括：选择一目标链路，并，在当前时刻通过目标链路发送请求数据；根据无线接入点ap通过目标链路发送的响应数据，更新目标链路在下一时刻的q值，响应数据用以表示目标链路在当前时刻被其他sta选择的情况；根据更新的q表，选择下一时刻的目标链路，q表存储有多个链路对应的最新时刻的q值。

4、在一些实施例中，所述方法方应用于ap，该方法包括：接收多个sta在当前时刻通过链路各自发送的请求数据，生成与各sta对应的响应数据；通过链路向每个sta发送对应的响应数据，响应数据用以表示链路在当前时刻被其他sta选择的情况，其中，所述链路表示每个sta选择各自选择的目标链路；接收各sta发送的q表，并根据q表选择各sta下一时刻的目标链路。

5、在一些实施例中，所述装置包括：第一处理器和存储有程序指令的第一存储器，所述第一处理器被配置为在运行所述程序指令时，执行如前述的基于强化学习的多链路分配方法。

6、在一些实施例中，所述sta，包括：站点本体；如前述的基于强化学习的多链路分配装置，被安装于所述站点本体。

7、在一些实施例中，所述装置包括：第二处理器和存储有程序指令的第二存储器，所述第二处理器被配置为在运行所述程序指令时，执行如前述的基于强化学习的多链路分配方法。

8、在一些实施例中，所述ap，包括：无线接入点本体；如前述的基于强化学习的多链路分配装置，被安装于所述无线接入点本体。

9、在一些实施例中，所述存储介质，存储有程序指令，所述程序指令在运行时，执行如前述的基于强化学习的多链路分配方法。

10、本公开实施例提供的基于强化学习的多链路分配方法、装置、sta、ap和介质，可以实现以下技术效果：

11、sta可通过无线接入点ap反馈的响应数据更新q表中目标链路在下一时刻的q值，以根据更新的q表中存储的多个链路的q值获知每个链路被其他sta选择的情况。从而从多个链路中选取下一时刻的目标链路，避免选取下一时刻与其他sta存在冲突的链路。由此，sta采用q学习的方式独立更新该sta的q表，能够降低其他sta与本sta选择同一链路的概率，从而降低数据传输的干扰，有利于多链路资源的合理分配，提高系统吞吐量。

12、以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

技术特征：

1.一种基于强化学习的多链路分配方法，其特征在于，应用于站点sta，包括：

2.根据权利要求1所述的链路分配方法，其特征在于，根据更新的q表，选择下一时刻的目标链路，包括：

3.根据权利要求1所述的链路分配方法，其特征在于，选择一目标链路，包括：

4.根据权利要求1所述的链路分配方法，其特征在于，根据无线接入点ap通过目标链路发送的响应数据，更新目标链路在下一时刻的q值，包括：

5.根据权利要求4所述的链路分配方法，其特征在于，根据接收的响应数据，确定目标链路在当前时刻的即时奖励，包括：

6.根据权利要求4或5所述的链路分配方法，其特征在于，在其他sta不具备强化学习能力的情况下，根据目标链路在当前时刻的即时奖励rt，更新链路ak在当前时刻的q值，包括：

7.根据权利要求4或5所述的链路分配方法，其特征在于，在其他sta中至少一个sta具备强化学习能力的情况下，stak根据目标链路ak在当前时刻的即时奖励rt，更新目标链路ak在当前时刻的q(s，a)值，包括：

8.根据权利要求1至5任一项所述的链路分配方法，其特征在于，还包括：

9.一种基于强化学习的多链路分配方法，其特征在于，应用于ap，包括：

10.根据权利要求9所述的链路分配方法，其特征在于，接收多个sta在当前时刻通过链路发送的请求数据，生成与各sta对应的响应数据，包括：

11.根据权利要求9所述的链路分配方法，其特征在于，在当前时刻同时接收两个以上sta通过链路传输的请求数据的情况下，所述接收各sta发送的q表，并根据q表选择各sta下一时刻的目标链路，包括：

12.一种基于强化学习的多链路分配装置，包括第一处理器和存储有程序指令的第一存储器，其特征在于，所述第一处理器被配置为在运行所述程序指令时，执行如权利要求1至8任一项所述的基于强化学习的多链路分配方法。

13.一种sta，其特征在于，包括：

14.一种基于强化学习的多链路分配装置，包括第二处理器和存储有程序指令的第二存储器，其特征在于，所述第二处理器被配置为在运行所述程序指令时，执行如权利要求9至11任一项所述的基于强化学习的多链路分配方法。

15.一种ap，其特征在于，包括：

16.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如权利要求1至11任一项所述的基于强化学习的多链路分配方法。

技术总结本申请涉及无线通信技术领域，公开一种基于强化学习的多链路分配方法，应用于STA，该方法包括：选择一目标链路，并，在当前时刻通过目标链路发送请求数据；根据无线接入点AP通过目标链路发送的响应数据，更新目标链路在下一时刻的Q值，响应数据用以表示目标链路在当前时刻被其他STA选择的情况；根据更新的Q表，选择下一时刻的目标链路，Q表存储有多个链路对应的最新时刻的Q值。该方法能够降低其他STA与本STA选择同一链路的概率，从而降低数据传输的干扰，实现多链路资源的合理分配，提高系统吞吐量。本申请还公开一种基于强化学习的多链路分配装置及STA、AP、介质。技术研发人员：王和俊,王滨后,徐芳,孙可欣,李江洲受保护的技术使用者：青岛海尔智能技术研发有限公司技术研发日：技术公布日：2024/10/10