技术新讯 > 电子通信装置的制造及其应用技术 > 基于移动机器人感知的室内定位时序指纹采集方法 > 正文

基于移动机器人感知的室内定位时序指纹采集方法

国知局
2024-08-02 13:53:49

本发明属于移动群体感知，具体涉及一种基于移动机器人感知的室内定位时序指纹采集方法。

背景技术：

1、基于无线电信号指纹的定位技术是当前室内定位领域的研究重点，它具有无需额外基础设施、成本低且定位精度较高等优势，但是应用这种定位技术需要事先获取室内定位指纹数据集。传统指纹采集方法通常对室内区域划分网格，每隔1-2米建立一个采样点，然后由专业人员通过采集设备在每个采样点采集不同无线电信号源在该采样点的接收信号强度(称为指纹)，这一过程通常会耗费大量人力成本和时间成本。移动机器人感知技术作为一种高效的数据获取方式，在智慧城市、地图构建等领域得到了广泛的应用，其中收集数据的移动机器人发挥了主导作用。

2、移动机器人感知可以提供高质量、覆盖全面的室内定位指纹采集服务。室内定位指纹采集的人类参与者会对室内环境中的室内定位指纹进行采集，但是人类参与者的采集路径往往没有经过事先规划，所以会不可避免地出现室内定位指纹缺失的情况。目前室内环境通常具有数据中心、控制室等区域，通过在室内环境中部署配备了wifi/5g接收器的移动机器人并由调度中心服务器对其采集路径进行规划，可以使其高效地填补缺失的室内定位指纹。值得注意的是，室内定位指纹容易受到室内移动障碍物和室内环境变化等因素的影响，具有较强的时效性，需要每隔一段时间进行一次采集，经多次采集得到的指纹称为时序指纹。室内定位时序指纹的缺失会导致室内定位精度下降，因此需要为每个室内定位时序指纹划定多个采集周期，室内定位时序指纹应在每个采集周期都被采集，也即每隔一段时间进行一次采集。

3、然而，现实场景中移动机器人群体作为任务执行者，在单个采集周期内的行动范围和采集能力比较有限。在这种情况下，移动机器人群体需要寻找一种在每个采集周期最大化室内定位时序指纹采集数量的行为模式。

4、在实际的应用场景中，基于移动机器人感知的室内定位时序指纹采集面临如下技术挑战：

5、技术挑战1，室内定位指纹时效性强，室内定位指纹容易受到室内移动障碍物和室内环境变化等因素的影响，具有较强的时效性，需对环境中的室内定位时序指纹按照不同的采集周期进行多次采集，因此需要构建一个尽可能保证在每个采集周期内采集全部室内定位时序指纹的模型，来达成最大化室内定位时序指纹采集数量和在每个采集周期都被采集的室内定位时序指纹数量的目的；

6、技术挑战2，复杂环境探索困难，室内环境通常是多楼层的，不同楼层之间仅通过电梯进行连接，这导致了环境的稀疏连通性；同时，室内环境的每一层都可能存在狭窄走廊或偏僻角落等不易到达的区域，这些区域不易到达所以很可能出现室内定位时序指纹缺失的情况，为了使移动机器人更好地探索室内环境，需要对移动机器人有效使用电梯进行楼层间移动和前往不易到达区域进行探索的行为分别进行激励，以采集更多的室内定位时序指纹；

7、技术挑战3，室内定位时序指纹采集任务繁重，室内定位时序指纹在室内环境中各处都可能存在，所以移动机器人群体需要在室内环境中的大部分区域执行采集任务，仅凭少量移动机器人难以在较短时间内采集全部室内定位时序指纹，因此需要多个移动机器人合作完成采集任务，室内定位时序指纹采集既需要移动机器人广泛探索环境中的每个区域，又需要在探索之后寻找一个明确的合作模式来尽可能地采集到全部的室内定位时序指纹，否则室内定位时序指纹依然会缺失。

8、基于现有技术存在的上述技术问题，本发明提出一种基于移动机器人感知的室内定位时序指纹采集方法。

技术实现思路

1、本发明的目的是针对现有技术的不足，提供一种基于移动机器人感知的室内定位时序指纹采集方法。

2、本发明采用如下技术方案：

3、一种基于移动机器人感知的室内定位时序指纹采集方法，包括：

4、步骤1，调度中心服务器主进程创建移动机器人的轨迹池，并初始化移动机器人的感知策略；

5、步骤2，调度中心服务器为每个室内定位时序指纹初始化惩罚系数，将所有室内定位时序指纹按照室内电梯位置分类，并计算每个类别的局部最优策略；调度中心服务器创建多个子进程，根据当前移动机器人感知策略收集模拟轨迹，并上传至各自轨迹池；

6、步骤3，当移动机器人移动至室内电梯所在位置时，调度中心服务器根据电梯所在类别的局部最优策略计算楼层切换效果；

7、步骤4，调度中心服务器收集每个室内定位时序指纹的采集情况，根据采集情况和惩罚系数对移动机器人采集任务完成效果进行评价；

8、步骤5，调度中心服务器计算移动机器人对环境的探索目标，收集移动机器人的模拟轨迹并保存在轨迹池；

9、步骤6，更新室内定位时序指纹的惩罚系数，并基于轨迹池采用独立多智能体近端优化方法来提升感知策略；

10、步骤7，反复执行步骤2-6直至每个移动机器人的感知策略不再发生变化，获得最优感知策略；

11、步骤8，根据最优感知策略，调度中心服务器向移动机器人群体发送最优轨迹指令，动态调度移动机器人群体采集室内定位时序指纹。

12、进一步地，步骤1包括：

13、在调度中心服务器主进程上，为每个移动机器人建立一个空的轨迹池，并各自初始化一个基准移动机器人感知策略；

14、其中，主进程使用的仿真环境参数包括移动机器人数量、室内定位时序指纹数量及所在位置、电梯和障碍物位置以及采集周期数量。

15、进一步地，步骤2包括：

16、步骤2.1，将整个室内定位时序指纹采集任务划分为t个离散的时间步，每个时间步都具有相同的时长，将所有时间步均匀地分到每个采集周期中，设每个采集周期包含k个时间步，在每个采集周期m开始时，为每一个室内定位时序指纹p，初始化惩罚系数λm,p＝λmin；

17、步骤2.2，根据室内定位时序指纹所在位置与当前楼层电梯之间的曼哈顿距离，将所有室内定位时序指纹分类至离楼层电梯最近的类别中，并根据动态规划算法，计算每一类别中，从电梯出发采集对应类别下的所有室内定位时序指纹的最短路径，获得局部最优策略；

18、步骤2.3，创建多个子进程开始模拟轨迹，子进程采用和主进程相同的仿真环境参数，每一个移动机器人根据当前策略和观察到的环境信息决策出下一个动作动作分解为移动机器人沿角度前进其中，并在前进过程中采集室内定位时序指纹，每个移动机器人在单个时间步内对采集到的室内定位时序指纹中来自不同无线电信号源的信号数量设置最大容量限制dmax，若当前时间步内采集到的室内定位时序指纹中来自不同无线电信号源的信号数量超过容量限制，则移动机器人结束当前时间步的移动，等待下一时间步继续采集室内定位时序指纹，子进程根据所有移动机器人的动作更新每一个移动机器人位置。

19、进一步地，步骤3包括：

20、每一个子进程根据第一计算模型，计算移动机器人移动过程中遇到电梯时的楼层切换效果作为其选择使用电梯的额外奖励其中，第一计算模型如下式：

21、

22、上式(1)中，qpo(θ)是移动机器人u在t时刻执行一步动作后，关于环境转移动力学的参数θ的后验分布，表示根据转移概率分布qpo(θ)对移动机器人有效利用电梯能采集到的室内定位时序指纹进行期望计算，表示移动机器人u从t时刻开始，遵循步骤2.2中由动态规划获得的局部最优策略在目标楼层采集电梯附近所有室内定位时序指纹和在当前楼层采集电梯附近所有室内定位时序指纹所获得奖励的差值，其中，表示移动机器人u从t在目标楼层获得的奖励，表示移动机器人u从t在当前楼层获得的奖励，t'表示移动机器人遵循局部最优策略采集完电梯附近所有室内定位时序指纹所花费的总时间。

23、进一步地，步骤4包括：

24、步骤4.1、每一个子进程对每个室内定位时序指纹的采集情况进行收集；

25、步骤4.2、每一个子进程根据第二计算模型，对移动机器人室内定位时序指纹采集任务的完成效果进行评价，其中第二计算模型如下式：

26、

27、上式(2)中，为移动机器人u在t时刻采集的室内定位时序指纹中来自不同无线电信号源的信号数量，是移动机器人通过采集室内定位时序指纹获得的奖励；表示移动机器人u在t时刻，通过满足室内定位时序指纹在当前采集周期中应被采集的约束获得的来自于约束模块的奖励，其中，是移动机器人u在t时刻对于室内定位时序指纹p所在位置的访问次数与该指纹所在位置应被访问次数之差，表示约束是否得到满足。

28、进一步地，步骤5包括：

29、步骤5.1、每一个子进程根据第三计算模型，计算移动机器人移动过程中对环境的探索目标其中，第三计算模型如下式：

30、

31、上式(3)中，qpo(θ)是移动机器人u在t时刻执行一步动作后，关于环境转移动力学的参数θ的后验分布，q(θ)表示移动机器人u在t时刻未执行动作时关于环境转移动力学的参数θ的先验分布，gmf表示高斯均值场模块，由贝叶斯神经网络组成，其参数记为φ，φ是由相互独立的高斯分布组成，其中，环境转移动力学的参数θ难以直接解析，则采用最大化elbo的方式学得最优φ，以间接完成对θ近似；

32、是kl散度在局部空间上的更新，由费希信息矩阵近似，其计算公式如下：

33、

34、其中，l是gmf模块的对数似然值，是关于l的费希信息逆矩阵，通过上式计算的奖励能够量化移动机器人当前执行动作对提升环境探索的贡献程度并给予相对应的鼓励，驱动其对复杂室内环境进行探索，帮助移动机器人寻找到最优轨迹；

35、步骤5.2、每个移动机器人根据当前感知策略和观察到的环境信息获取动作在室内环境中进行移动并对室内定位时序指纹进行采集，记录这一过程中获得的奖励获取下一步的环境信息以四元组的形式保存在轨迹池对应位置。

36、进一步地，步骤6包括：

37、步骤6.1、调度中心服务器根据第四计算模型对室内定位时序指纹的惩罚系数进行更新，其中，第四计算模型如下式：

38、

39、上式(5)中，[·]+表示将λm,p的更新结果投影到[λmin,λmax]区间，αp是惩罚系数的学习率，表示对每个移动机器人和采集周期m内的每个时间步计算室内定位时序指纹p的访问次数与p在采集周期m应被访问次数之差，用于更新惩罚系数；

40、其中，对室内定位时序指纹的惩罚系数进行更新的方法的效果是，当移动机器人不满足室内定位时序指纹在采集周期中应被采集的约束时,惩罚系数会增长，从而使用更大的奖励引导移动机器人满足约束，[·]+用于确保引导移动机器人在每个采集周期都对室内定位时序指纹进行采集的奖励始终保持在一个有效的范围内；

41、步骤6.2、从轨迹池中采样一部分轨迹作为提升移动机器人感知策略的样本；

42、步骤6.3、调度中心服务器根据从轨迹池中采样得到的样本根据第五计算模型对移动机器人感知策略的策略网络和价值网络进行训练，其中，第五计算模型如下式：

43、

44、

45、上式中，

46、

47、其中，为重要性采样加权因子，πu和vu分别是当前的策略网络和价值网络，和分别是旧的策略网络和价值网络，通过gae模块获得的优势函数，表示通过优势函数估计的vu的结果，clip()表示截断操作。

48、进一步地，步骤8包括：

49、步骤8.1、调度中心服务器主进程初始化环境，并基于执行完毕输出的最优感知策略为移动机器人群体生成动作轨迹作为能够满足室内定位时序指纹采集任务的最优轨迹；

50、步骤8.2、在以室内定位时序指纹采集为目的的移动机器人群体感知场景中，调度中心服务器根据计算得到的最优轨迹，向移动机器人连续发送控制指令，调度移动机器人进行移动，动态采集室内定位时序指纹，并将感知结果发送至调度中心服务器。

51、进一步地，步骤4.1中收集的室内定位时序指纹采集情况包括每个移动机器人采集的室内定位时序指纹中来自不同无线电信号源的信号数量和对每个室内定位时序指纹所在位置的访问次数。

52、进一步地，步骤2.3中，仿真环境参数包括移动机器人数量、室内定位时序指纹数量及所在位置、电梯和障碍物位置以及采集周期数量。

53、本发明的有益效果是：

54、1，本发明所述基于移动机器人感知的室内定位时序指纹采集方法，基于移动机器人感知执行室内定位时序指纹采集任务，可以有效填补室内定位时序指纹，保证室内定位时序指纹数据集的完整性，利用移动机器人能够按照调度中心服务器规划轨迹移动并执行采集任务，能够覆盖室内环境中的各个区域(特别是人类参与者不易到达的狭窄区域、偏僻区域等)，获得更加完整和全面的室内定位时序指纹，能够更系统地对室内环境进行划分和覆盖，避免采集过程中指纹的缺失，获得高质量的室内定位时序指纹；

55、2，本发明所述基于移动机器人感知的室内定位时序指纹采集方法，使用移动机器人自动采集室内定位时序指纹，节约了大量的人力成本、时间成本和经济成本，能够保证室内定位时序指纹采集的持续性；

56、3，本发明所述基于移动机器人感知的室内定位时序指纹采集方法，通过使用额外奖励对移动机器人进行引导，使其学会了有效使用电梯，扩大了移动机器人的移动范围，从而能够在有限时间内采集更多的室内定位时序指纹。