基于主动康复训练的上肢康复机器人运动控制方法
- 国知局
- 2024-07-11 16:21:31
本发明涉及康复机器人智能康复训练,具体是一种基于主动康复训练的上肢康复机器人运动控制方法。
背景技术:
1、脑卒中导致的上肢障碍患者生活不能自理,需长期进行康复治疗,给患者、家庭和社会带来了沉重负担。康复机器人可替代康复医师对上肢运动障碍患者进行康复训练。主动康复较被动康复更好,患者的参与度可直接影响神经可塑性的恢复效果。目前的主动康复方法,无法有效适应患者身体变化,在进行康复训练任务时,不仅要考虑机器人自身运动,还要考虑康复效果、安全等非传统因素。如最优控制可以目标为导向设计控制器,但依赖精确的动力学模型,而且对外界扰动敏感。而康复训练人机交互时,系统模型具有时变性、随机性,系统动力学模型无法建立。无模型的自适应最优控制算法可通过从局部辨识模型中以最优化目标函数计算控制信号,然而算法依赖于局部模型参数辨识精度,难以应用于高时变系统。
2、针对主动康复训练的这一现状,有必要设计一种考虑患者的主观运动意图,不依赖于动力学参数辨识,并有效应用于人机交互高时变系统的上肢康复机器人运动控制方法。基于强化学习的控制方法,不依赖于精确的动力学模型辨识,可基于数据驱动,通过试错法在非结构化环境中采集交互数据,通过智能体不断优化控制策略使奖励函数最大化,可实现系统以目标函数为导向的最优控制。
技术实现思路
1、针对上肢康复机器人在主动康复训练时,传统控制方法无法有效解决复杂人机交互情况下上肢康复机器人运动控制器的问题,本发明针对上肢主动康复训练,基于策略学习概念,提出了一种基于强化学习的控制方法,可有效实现上肢康复机器人在训练过程中的运动控制。
2、本发明解决所述技术问题采用如下的技术方案:
3、一种基于主动康复训练的上肢康复机器人运动控制方法,其特征在于,包括以下步骤:
4、第一步:提取人机协同运动系统特征,包括机器人电机角速度和人机交互力
5、第二步:基于马尔可夫决策过程对人机系统进行建模;人机系统的马尔科夫决策过程记为由人机系统环境状态与控制策略描述π=vec{[a,p,r,γ]}组成;为机器人各关节角度,为系统特征,a=[a1,a2,a3,a4,a5,a6]为动作空间,p(st+1|st,at,...,s1,a1)=p(st+1|st,at)为状态转移概率,s1,a1分别为初始时刻的状态与动作空间,st,at分别为t时刻的状态与动作空间,st+1为t时刻的下一时刻状态;为奖励函数记,式中α为交互力矩与角速度的比例常数,k设定为交互力矩和关节角速度的控制目标,γ∈(0,1]为折扣因子;
6、第三步:使用sac算法训练控制策略,得到最优控制策略;最优控制策略的输入为当前时刻的状态,输出为当前时刻的动作,使上肢康复机器人序贯决策获得奖励最优;
7、第四步:将训练好的最优控制策略πm迁移至现实机器人控制系统中,将实验者与康复机器人机械臂通过绑带绑扎,实验者手握住机器臂末端把手,进行康复训练,实验者主动运动并与力传感器接触,机器人控制系统不断读取力传感器数据,输入到最优控制策略模型中,最优控制模型根据当前时刻人机系统的状态st,输出当前时刻机器人的动作at,根据动作控制机器人电机角速度人机系统状态转移至下一时刻状态st+1;将下一时刻状态st+1输入到最优控制策略模型中,不断重复该步骤,直至主动康复训练完成。
8、与现有技术相比,本发明的有益效果是:
9、本发明方法基于六自由度上肢康复机器人,主动训练康复效果更好,可促使患者积极参与,有利于上肢体障碍患者神经恢复。本发明方法基于上肢康复机器人主动康复训练任务,针对传统控制无法有效解决复杂人机交互与协同运动的控制器问题,将基于患者运动意图的康复机器人最佳辅助控制转换成基于实现奖励函数最大化的最优控制问题。该发明方法考虑患者的上肢体主观运动,不依赖于精确动力学参数辨识,可有效应用于人机交互的高时变系统,对机器人在康复领域的推广与应用具有重要意义。
技术特征:1.一种基于主动康复训练的上肢康复机器人运动控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于主动康复训练的上肢康复机器人运动控制方法,其特征在于,第三步中,sac算法训练的网络包括一个actor当前策略网络,四个critic网络,分别是当前状态价值评估网络v-critic和目标价值评估网络tv-critic,动作-状态价值评估qa和qb网络;actor当前策略网络的参数设为θφ,输入为当前时刻环境状态st,输出为高斯分布的和方差然后根据该高斯分布依概率采样得到动作at;当前状态价值评估网络v-critic的网络参数为θv,输入为当前时刻状态st,网络输出为状态价值评估v(st|θv);目标价值评估网络vt-critic的网络参数为θtv,输入为当前时刻状态st+1,网络输出为状态价值评估v(st+1|θtv);动作-状态价值评估网络qa与qb的网络参数分别为θa与θb,输入均为当前时刻状态st,输出分别为动作价值评估与
技术总结本发明公开了一种基于主动康复训练的上肢康复机器人运动控制方法,首先提取提取人机协同运动系统特征,包括机器人各关节电机的角速度和人机交互力;然后,基于马尔可夫决策过程对人机系统进行建模;最后,使用SAC算法训练控制策略,得到最优控制策略;最优控制策略的输入为当前时刻的状态,输出为当前时刻的动作,使上肢康复机器人序贯决策获得奖励最优;将训练好的最优控制策略迁移至现实机器人控制系统中,实验者手握住机器臂末端把手,进行康复训练,实验者主动运动并与力传感器接触,机器人控制系统不断读取力传感器数据,输入到最优控制策略模型中,最优控制模型根据当前时刻人机系统的状态,输出当前时刻机器人的动作,根据动作控制机器人电机角速度,人机系统状态转移至下一时刻状态;将下一时刻状态输入到最优控制策略模型中,不断重复直至主动康复训练完成。技术研发人员:郭士杰,宋元昊,李洋,周赢,张同辉受保护的技术使用者:河北工业大学技术研发日:技术公布日:2024/5/9本文地址:https://www.jishuxx.com/zhuanli/20240615/78833.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
一种飞碟型玩具的制作方法
下一篇
返回列表