一种面向社会交互行为的机器人兼容导航方法及系统
- 国知局
- 2024-10-09 14:37:37
本发明属于机器人导航,具体涉及一种面向社会交互行为的机器人兼容导航方法。
背景技术:
1、随着移动机器人的快速发展,在丰富的行人环境中进行社会顺从的导航是一个重要且具有挑战性的问题。在不确定和动态的拥挤环境中,机器人除了要安全无碰撞的到达目标点,还应该推断行人的策略偏好和预期目标,以社会可接受的方式进行导航。
2、现有的机器人导航研究大多侧重于避免碰撞,这些方法大致可以分为三类:基于反应的方法、基于轨迹的方法和基于学习的方法。基于反应的方法包括最优互防碰撞(orca)和互反速度障碍(rvo),将其他智能体建模为速度障碍,在互反假设和确定性的交互规则下,求解避障最优速度。基于轨迹的方法尝试通过构建昂贵复杂的行人预测模型来规划机器人的避障路径。而基于学习的方法,则依赖于奖励机制或专家数据集来训练机器人执行优秀的导航动作
3、这些现有的导航技术面临两大挑战:首先,它们往往基于一个不切实际的假设—机器人能够完全观测到拥挤场景中所有行人的状态特征。在实际应用中,由于视线遮挡等因素,机器人往往只能部分观测到周围环境。其次,将行人简单视作需躲避的动态障碍物,忽略了行人与机器人之间可能存在的社会互动,如合作和协商。这种方法可能导致机器人的行为过于保守,不符合社会习惯,或在面对复杂场景时出现“冻结机器人问题”。实际上,行人的行为模式多种多样,一些行人可能愿意与机器人合作,而其他自私的行人则期望机器人主动避让。因此,机器人需要学会识别不同类型行人的社会行为偏好,并据此调整自己的导航策略,以更好地融入社会环境之中。
技术实现思路
1、为了解决现有技术中存在的问题,本发明提供了一种面向社会交互行为的机器人兼容导航方法,通过深度学习和时空注意力机制,利用无监督自编码器从行人轨迹中提取行人的社会行为偏好特征,并利用基于时空交互图的注意力机制优化机器人的导航策略。本方法实现无需人工标注的无模型深度强化学习,有效提升机器人在人群中的社会兼容性导航能力;相较于传统导航方法,本发明能显著提高导航成功率,降低碰撞风险,缩短目的地到达时间,具有重要的理论意义和广泛的应用前景。
2、为了实现上述目的,本发明采用的技术方案是:一种面向社会交互行为的机器人兼容导航方法,包括以下步骤:
3、利用无监督自编码器,基于行人的可观测轨迹信息,提取行人的社会行为偏好特征;其中,无监督自编码器包括门控循环单元和多层感知器组成的编码器和解码器,用于自动学习和提取行人的社会行为偏好特征;
4、结合深度强化学习与时空注意力机制,构建一个时空图网络,时空图网络包含节点特征编码器、空间关系编码器和时间序列编码器,节点特征编码器、空间关系编码器和时间序列编码器共同作用于描述机器人与行人之间的动态交互关系,并对行人的未来移动意图进行预测;
5、结合行人社会行为偏好特征和行人的未来移动意图进行预测结果,通过基于actor-critic框架的无模型深度强化学习算法优化机器人的导航策略;
6、通过动态调整所述导航策略,动态调整所述导航策略时基于响应实时感测数据和预测数据,调整机器人的行动路径和速度。
7、进一步的,所述无监督自编码器通过分析行人的行动模式和速度变化,区分行人的社会行为偏好为礼貌型或自私型,其中礼貌型行人倾向于为机器人让路,而自私型行人期望机器人避让,通过社会行为偏好分类,指导机器人在人群中的交互行为,并采取相应的导航策略以适应不同类型行人的行为模式。
8、进一步的,获取所述行人的可观测轨迹信息包括:机器人通过短程传感器获取周围行人的位置和速度信息,并转换到机器人右手坐标系下进行处理,时间步t下的机器人的观测值为
9、
10、为行驶速度,vmax最大速度限制,r为半径,dg为当前位置到目标位置的欧式距离;时间步t下的第i个行人观测值为
11、
12、为行人当前位置、为行人当前速度、di,t为行人到机器人的距离、行人半径,为行人的社会行为偏好
13、进一步的,节点特征编码器、空间关系编码器和时间序列编码器共同作用于描述机器人与行人之间的动态交互关系包括:对行人轨迹数据首先通过spvae处理,形成图,包括智能体节点、空间边和时间边;对所述图提取特征之后分别送入时空互动注意力机制的节点特征编码器、空间关系编码器和时间序列编码器中,节点特征编码器处理个体行人的特征,包括行人的当前位置、速度信息;空间边缘编码器处理行人之间的空间关系,包括行人如何相对于其他行人以及机器人的位置分布;时间边缘编码器处理行人轨迹随时间的变化,即行人动态如何随时间演变。
14、进一步的,社会行为偏好自编码器从行人轨迹τp中提取其社会行为偏好特征zt,解码器根据潜在的社会行为偏好特征zt重建轨迹具体如下:
15、在时间步t-1下,将第i个长度为l的行人轨迹输入编码器,得到时间步t下编码器的隐藏特征向量
16、
17、最后,将隐藏特征向量输入mlpμ和mlpσ,获取潜在的行人偏好特征
18、
19、zt=μt+∈t*σt
20、其中,z服从高斯分布ν(∈t|μt,σt),μ和σ是高斯参数;
21、在解码器阶段,输入偏好特征zt和时间步t-1的重构状态得到时间步t下解码器的隐藏特征向量并重构整个轨迹
22、
23、其中,ltum是一种重构方法。
24、进一步的,通过基于actor-critic框架的无模型深度强化学习算法优化机器人的导航策略包括:将机器人的横向转向角[-π,π]分成8部分,纵向速度空间分成4部分,其中也包括原地等待(0,0)动作,机器人共存在33个动作(vx,vy);
25、鼓励机器人与礼貌行人合作,避让自私行人,引入社会因子奖励,如下:
26、
27、引入惩罚碰撞,并对成功到达目标位置给予奖励,如下:
28、
29、另一方面,一种自主移动机器人,包括机器人导航系统处理器和用于感知可观测轨迹信息的机器人导航系统传感器,机器人导航系统传感器用于实时捕捉行人动态信息和周围环境特征,机器人导航系统处理器基于上述方法对机器人进行导航。
30、另一方面,本发明提供一种面向社会交互行为的机器人兼容导航系统,包括特征提取模块、预测模块、优化模块以及导航模块;
31、特征提取模块利用无监督自编码器,基于行人的可观测轨迹信息,提取行人的社会行为偏好特征;其中,无监督自编码器包括门控循环单元和多层感知器组成的编码器和解码器,用于自动学习和提取行人的社会行为偏好特征;
32、预测模块用于结合深度强化学习与时空注意力机制,构建一个时空图网络,时空图网络包含节点特征编码器、空间关系编码器和时间序列编码器,节点特征编码器、空间关系编码器和时间序列编码器共同作用于描述机器人与行人之间的动态交互关系,并对行人的未来移动意图进行预测;
33、优化模块结合行人社会行为偏好特征和行人的未来移动意图进行预测结果,通过基于actor-critic框架的无模型深度强化学习算法优化机器人的导航策略;
34、导航模块通过动态调整所述导航策略,动态调整所述导航策略时基于响应实时感测数据和预测数据,调整机器人的行动路径和速度。
35、本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本发明所述面向社会交互行为的机器人兼容导航方法。
36、同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的面向社会交互行为的机器人兼容导航方法。
37、与现有技术相比,本发明至少具有以下有益效果:
38、本发明通过智能识别行人的社会行为偏好,使机器人在复杂的人群环境中,能够更加精准地预测和适应行人的行为,实现更加自然和符合社会规范的导航行为,避免造成行人的不适或困扰,提升导航的社会兼容性;
39、使机器人能自主学习与适应环境:借助无监督自编码器和深度强化学习,本发明实现了机器人对复杂社会环境的自主学习和适应,有效减少了对大量标注数据的依赖,提高了机器人在未知或变化环境中的导航性能;
40、本发明优化的导航策略不仅能显著降低与行人发生碰撞的风险,还能通过智能规避和合理选择路径,缩短到达目的地的时间,提高整体导航效率;
41、其中时空网络构建一个包含节点特征编码器、空间边缘编码器和时间边缘编码器的交互图,能够用于捕捉机器人与行人之间的即时动态交互关系,通过深度强化学习进行时空推理,时空注意力机制能够识别并预测行人的运动趋势及预期路径,从而辅助机器人做出预测性的导航决策,提升导航的效率与安全性;
42、其中深度强化学习过程中采用的奖励机制,鼓励机器人优化其导航路径,避免不必要的碰撞,同时与具有合作倾向的行人进行有效互动,奖励机制还考虑到减少导航时间和提高路径效率;
43、该导航方法不限于特定类型的机器人或特定场景,可广泛应用于各种公共环境和服务场景,如商场、机场、医院等,具有重要的理论意义和实际应用价值。
本文地址:https://www.jishuxx.com/zhuanli/20241009/305894.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。