一种基于强化学习的机器人路径规划方法及设备
- 国知局
- 2024-07-08 11:11:17
本发明属于磨抛控制,更具体地,涉及一种基于强化学习的机器人路径规划方法及设备。
背景技术:
1、工业机器人凭借其高灵活性、高效率、高泛用性等显著优势,被广泛应用于现代制造业,如磨削、铣削、喷涂等领域。在利用机器人进行上述表面加工作业时,往往需要覆盖目标表面上的每个目标点,这被称为全覆盖路径规划。近年来随着机器人在工业领域的普及,加工环境呈现出复杂化、巨大化的趋势。在具有复杂几何形状的各种环境中执行全覆盖路径规划是一个典型的np困难问题,具有挑战性。为了提升加工表面一致性,需要一个行之有效的路径规划策略。
2、为了解决上述问题,中国专利cn117011471a公开了一种基于点云的实时全覆盖打磨路径规划方法,其将待打磨点云投影到xoy平面,在xoy平面内划分投影网格,最后用最短路径算法对打磨路径点进行重新排序。中国专利cn115933522a公开了一种基于stl模型的机器人打磨曲面路径规划方法,该方法采用了切平面算法进行复杂自由曲面的路径生成,在此基础上进行机器人轨迹规划。中国专利cn116841246a公开了一种基于三维点云数据的机器人打磨路径自动规划方法,其将切平面法应用在点云模型上,最后在路径基础上对残高和曲率进行插补和控制,完成机器人打磨路径规划优化。上述方案提出了在三维曲面上开展全覆盖路径规划的方法,这些方法采用传统的切平面法或扫描路径法,只能运用于无障碍无孔洞的规则曲面上,在解决多变复杂环境问题上缺乏灵活性。
3、此外,中国专cn115857516a公开了一种结合牛耕式运动与遗传算法的全覆盖路径规划方法和装置,其采用牛耕式运动方式设定路径初代染色体种群,然后采用遗传算法对种群进行迭代优化,最终获得优化的规划路径。该启发式算法能在一定程度上实现路径覆盖与避障,但对于更大规模的地图可能产生难以收敛的问题。
技术实现思路
1、针对现有技术的以上缺陷或改进需求,本发明提供了一种基于强化学习的机器人路径规划方法及设备,其中结合机器人打磨自身的特征及其路径规划工艺特点,相应设计了一种基于强化学习的机器人路径规划方法,其预先将待加工三维曲面降维,展开为二维平面,同时,通过调整奖励函数的权重因子,控制路径的优先覆盖方式,此外本发明引入强化学习框架和优化算法进一步提升了收敛速度,因而实现了复杂多孔曲面的自动路径全覆盖,生成的路径具有自动避障、全覆盖、强连续性等优势,在机器人喷涂、机器人打磨、移动机器人等领域具有应用前景。
2、为实现上述目的,按照本发明的一个方面,提出了一种基于强化学习的机器人路径规划方法,包括以下步骤:
3、s1将工件模型的点云数据转化为boj模型后,通过共形映射生成共形平面,对共形平面进行障碍物膨化处理,以生成栅格地图,并基于该栅格化地图对任务目标区域进行标记,生成当前路径;
4、s2构建全覆盖路径规划的奖励函数模型,以对当前路径进行评价;
5、s3基于所述栅格地图和奖励函数模型,建立基于actor critic强化学习框架,根据评估梯度函数更新actor critic强化学习框架,直至收敛,得到优化的自适应路径;
6、s4将优化的自适应路径重新映射回三维曲面。
7、作为进一步优选的,步骤s1中,所述通过共形映射生成共形平面包括:
8、s111设共形平面的二维坐标系为(u,v),在三角网格中每个三角形上建立一个局部正交的二维坐标系,设每个三角形上局部坐标系坐标为(x,y),三个顶点的局部坐标为(x1,y1),(x2,y2),(x3,y3);
9、s112映射u:(x,y)→(u,v)为三维到二维的投影,用复数表示坐标系,即用sj表示第j个三角形的面积,每个三角形的共形能量e可以表示为:
10、
11、s113通过最小二乘法最小化所有三角形的共形能量,获得二维参数平面,即生成共形平面。
12、作为进一步优选的,步骤s2中,机器人在t时刻的奖励函数模型为:
13、r(pt)=rl(pt)+λsrs(pt)+λmrm(st)+λcrc(st)
14、其中,pt为当前时刻t的路径;st为当前时刻的状态矩阵,st=pt+s0,s0为初始状态,即机器人没有活动的时刻,是初始地图;rl为覆盖率回报;rs为光滑性回报;rm为连通性回报;rc为凹凸性回报,λs、λc、λm为分别是与覆盖率回报、光滑性回报和多连通性回报相关的权重因子。
15、作为进一步优选的,步骤s2具体包括以下步骤:
16、s211计算覆盖率回报rl:
17、
18、其中,not completely covered为未完全覆盖,completely covered为完全覆盖;
19、s212计算光滑性回报rs:
20、
21、s213计算连通性回报rm,在每个时刻t,采用轮廓提取算法提取地图的轮廓数量nbd,当检测到nbd减小时,提供一个正向奖励rm=10;当检测到nbd增加时,提供负面回报rm=-10,并终止当前训练路径;
22、s214用凸包检测函数提取栅格地图的最大凸包h(st),将栅格地图的凹凸性ct量化为最大凸包面积与当前地图面积的差值:
23、ct=a(h(st))-a(st)
24、根据凹凸性的变化计算凹凸性回报。
25、作为进一步优选的,所述凹凸性回报包括:
26、
27、其中,ψ表示凹凸性回报的阈值。
28、作为进一步优选的,步骤s3具体包括以下步骤:
29、s311通过机器人与环境互动,得到状态矩阵st和奖励rt;
30、s312将所述栅格地图通过三层卷积神经网络进行特征提取,其输出作为在时间t的actor网络和critic网络的状态输入st,actor网络和critic网络采用全连接的形式;
31、s313计算当前时刻的奖励rt,将状态st和奖励rt输入critic网络中,其输出为值函数vω,根据该值函数vω计算优势函数
32、s314基于所述优势函数actor网络输出1*4的向量,表示向四个方向运动的权重,选择权重最高的作为下个动作,计算评估梯度;
33、s315根据计算的评估梯度更新整个网络,机器人与环境不断交互,不断更新策略网络和值函数网络,直至收敛,得到优化的自适应路径。
34、作为进一步优选的,步骤s313中,所述优势函数为:
35、
36、其中,rt为t时刻的奖励,γ为学习率;
37、步骤s314中,所述评估梯度包括:
38、
39、其中,为优势函数,logπθ(s,a)为策略的对数。
40、按照本发明的另一个方面,还提供了一种基于强化学习的机器人路径规划系统,包括:
41、第一主模块,用于将工件模型的点云数据转化为boj模型后,通过共形映射生成共形平面,对共形平面进行障碍物膨化处理,以生成栅格地图,并基于该栅格化地图对任务目标区域进行标记,生成当前路径;
42、第二主模块,用于构建全覆盖路径规划的奖励函数模型,以对当前路径进行评价;
43、第三主模块,用于基于所述栅格地图和奖励函数模型,建立基于actor critic强化学习框架,根据评估梯度函数更新actor critic强化学习框架,直至收敛,得到优化的自适应路径;
44、第四主模块,用于将优化的自适应路径重新映射回三维曲面。
45、按照本发明的另一个方面,还提供了一种电子设备,包括:
46、至少一个处理器、至少一个存储器和通信接口;其中,
47、所述处理器、存储器和通信接口相互间进行通信;
48、所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行上述任意实施例涉及的一种基于强化学习的机器人路径规划方法。
49、按照本发明的另一个方面,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述任意实施例涉及的一种基于强化学习的机器人路径规划方法,
50、总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:
51、1.本发明的方法,预先将待加工三维曲面降维,展开为二维平面,简化了规划问题,提升了规划效率。
52、2.本发明的方法,可以通过调整奖励函数的权重因子,控制路径的优先覆盖方式,具有很高的可控性和灵活性。即本发明奖励函数从多个角度综合评价当前路径,以避免强化学习过程中奖励过于稀疏而收敛缓慢的问题。此外,权重因子决定了智能体在决定下一步行动时对每个奖励的重视程度,在一定程度上决定了智能体的行为优先级,通过对奖励函数权重因子的调整,控制路径的优先覆盖方式。
53、3.本发明的方法,引入强化学习框架和优化算法进一步提升了收敛速度,在大型多孔非结构化曲面上表现良好。即本发明很好地实现了多孔洞非结构化地图的全覆盖路径规划,且满足全覆盖仅需一条路径,提升了路径的连续性。
本文地址:https://www.jishuxx.com/zhuanli/20240617/52358.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
箱盖拆组装置的制作方法
下一篇
返回列表