技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种自定义静态手势识别判定方法及系统  >  正文

一种自定义静态手势识别判定方法及系统

  • 国知局
  • 2024-07-31 23:15:47

本发明涉及虚拟现实,具体涉及一种自定义静态手势识别判定方法及系统。

背景技术:

1、手势识别与传统的触控和按键操作相比,操作简单,实时性好,可用于远程操作。早期,手势在相当长一段时期内都通过数据手套等外部设备获取。用户穿戴特定且复杂的手套装备后,通过手套上的传感器、陀螺仪等设备获取手掌和各个手指的运动信息、轨迹信息以及各种相关信息。利用数据手套等设备采集手势数据具有稳定性好,采集的数据精度较高等特点,其缺点就是穿戴手套的过程复杂,价格高昂,只能在特定的场合使用且需要一定的使用经验,不利于自然的交互。随着计算机技术与硬件的不断发展,基于计算机视觉的方法采集手势信息逐渐占据了主流,该方法比较友好,具有成本低,简洁高效的特点,应用前景较好。

2、基于视觉的手势识别由4个关键步骤组成:手势的检测、手势分割、特征的提取和手势的分类与识别。手的检测就是从视觉传感器获得的视频序列中检测是否有手的存在,并且定位手在图像中的像素点集合的位置。手的分割是将上一步手势检测定位到的像素点坐标的集合分离出来,有效地减少像素点的计算,便于后续操作。手势分类是对提取的手势时空特征进行分类,识别的结果在一定程度上取决于手势特征的选取。静态手势定义和分类的方法主要有以下几种。

3、基于模板匹配的方法:模板匹配法是最早被提出来的识别方法,也相对容易,多用于静态手势识别。该方法是将输入图像与模板(点、曲线或形状)匹配,并根据匹配相似性进行分类。坐标距离、点集距离等,轮廓边缘匹配、弹性图匹配等都可以用于匹配度计算。吕蕾等人提出的利用数据手套收集手部动作时的实时数据,然后针对运动数据进行处理,收集相应的手势数据构建样本库,最后使用模板匹配实现多种手势识别。robert等人提出使用佩戴印有特定图案的有颜色手套,再通过摄像头获取包含手部的图像信息跟踪手部,通过不同颜色定位出每根手指和手掌区域,最后根据颜色特征识别不同的手势。zhou ren等人使用kinect获取深度图像信息,默认手部离摄像头距离最近分割出手部区域,利用手指的emd距离作为手势特征,可以更好的区别不同的手势,将emd作为模板匹配的特征向量识别10种静态手势。

4、模板匹配法的优点是在小样本的情况下速度非常快,对于光照、背景变化的适应性较好,应用范围广,但分类精度不高,可以识别手势的类型有限,适用于小样本、形状变化小等情形。

5、基于人工神经网络(ann)的方法:人工神经网络是一种大规模并行处理的网络算法,是对人脑或自然神经网络基本特性的抽象和模拟,是一种智能仿生的非线性系统。在识别应用中,神经网络的输入是未知对象的特征向量。这个特征向量将输入到第一隐含层的所有神经元。通常特征向量会增加一维,其值恒为1。这为求和提供了一个附加的权重,在函数中起到偏移量的作用。当神经元的定义和网络连接结构确定后,神经元之间互连的权重系数决定了网络的行为。在训练过程中权重系数不断得到调整,当训练结束进入实际应用时,权重系数保持不变,输入的信息经不同层传播,使输出层上产生相应输出向量,根据输出的结果就可以将该对象划分到某一类中。

6、神经网络方法具有分类特性及抗干扰性,具有自组织和自学习能力,具有分布性特点,能有效抗噪声和处理不完整的模式以及具有模式推广能力。然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。著名的fels的glovetalk系统采用神经网络方法作为识别技术。

7、基于概率统计的方法:基于概率统计理论的方法是通过统计样本特征向量来确定分类器,而不是直接对原始数据进行识别。概率统计的方法包含很多,例如隐马尔科夫模型(hmm)、动态贝叶斯网络(dbn)、条件随机场(crf)等。

8、hmm模型是一种具有双重随机过程的模型,且能够在不同的时空条件下完成时间序列的分析。一般拓扑结构下的hmm具有非常强的描述手势信号的时空变化能力,在动态手势识别领域一直占有主导地位,如卡内基,梅隆大学的美国手语识别系统采用hmm作为系统的识别技术;然而正是由于hmm拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得hmm训练和识别计算量过大,尤其是在连续的hmm中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。

9、基于边缘轮廓的机器学习的方法:机器学习可以让计算机在海量数据中产生符合数据一般规律的模型,手势识别可以通过许多流行的机器学习分类算法来解决,如支持向量机(svm)、k-最近邻算法(k-nearest neighbor,knn)等。支持向量机在数据集利用监督算法来对二元模型进行分类,其本质是在特征空间找到决策边界从而找到最合适的分类器。支持向量机还可以利用核方法,将其扩展为非线性分类器。它的学习策略是间隔最大化,可形式化为求解凸二次规划问题。

10、pisharady等人利用边缘和纹理特征,结合svm进行手势识别。实验结果表明,该算法具有独立于人的性能,对手大小和复杂背景的变化是可靠的。赵健等人则根据人体肤色在hsv颜色空间的分布特征进行手部区域分割,提取手部轮廓的hu矩作为特征向量,求出样本手势和测试手势向量之间的欧式距离,然后通过欧式距离值大小判定测试手势的类别。

11、近年来,手势识别技术已经逐渐完善,应用场景也十分广泛,但针对不同使用场景往往需要定制不同的手势识别方案和手势命令以满足特殊需求。

12、chris基于模板匹配的方法建立了一个以手势为基础的人机交互系统,用户可以通过系统中预定义的10个手势去控制各种家用电器,为行动不变的人带来很大的方便。该方案通过测量手势的特征参数与预先存储的模板特征的相似度完成手势分类,用户只能使用模板中的手势,且该方法对手势的尺度和旋转变化非常敏感,容易出现匹配错误。

13、zeng等人利用leap motion获取描述手部运动动力学的手势特征,包括手指的空间坐标、加速度和方向,使用径向基神经网络作为手势识别模型,以对代表大写英文字母a至z的不同手势进行识别。这种方案具有自组织和自学习的能力,能有效的抗噪声并具有推广模式,但采用这种技术必须在识别前进行神经网络的学习,处理过程中可能存在中间层神经元的个数庞大,学习时间太长等缺点。

14、chenyen、tinge等人利用支持向量机分别从三个角度实现了手势的分类,这个方式针对手势的各个属性都有良好的效果,手势的识别准确率高达93%。虽然这个方式的分类效果较好,但由于其训练过程较为复杂且耗费大量时间在使用过程中较为局限,例如在新增手势时,需要重新训练模型,延时性问题非常突出。

15、以上研究者已经针对手势识别提出了一系列有效方案,但这些方案的使用场景较为局限,都不能满足实时更新手势命令的需求,用户只能使用预定义的几种手势或者耗费大量时间重新设计方案训练模型。

16、因此目前亟需一种具有普适性的手势识别判定规则,使用户可以根据不同的使用场景随时新建自己的手势命令,实现自定义手势录入、实时手势库更新及手势命令生成。

技术实现思路

1、有鉴于此,本发明提供了一种自定义静态手势识别判定方法及系统,构建了具有普适性的手势识别判定规则,使用户可以根据不同的使用场景随时新建自己的手势命令,实现自定义手势录入、实时手势库更新及手势命令生成,具有更高的灵活性、更广的适用性,节约开发成本和开发时间。

2、为达到上述目的,本发明提供的一种自定义静态手势识别判定方法,其包括如下步骤:

3、实时捕捉并接收手势信息,对手势信息进行处理以及检测识别,获得手部地标模型。

4、计算每一手指的弯曲角度。

5、根据计算出的手指的弯曲角度,设定一定的阈值来判断手指的状态,每个手指的状态包括闭合、伸直和弯曲三种,构建手指状态编码。

6、识别并建立左右手特征编码。

7、根据左右手特征编码以及手指状态编码,构建手部特征向量。

8、采用所构建的手部特征向量进行手势识别。

9、进一步地,实时捕捉并接收手势信息,对手势信息进行处理以及检测识别,获得手部地标模型,具体采用如下方式:

10、通过摄像头捕捉实时视频流作为原始输入,对原始输入图像预处理,降低图像中的噪声和干扰因素,然后利用mediapipe的手部骨骼跟踪器实时检测手部动作并生成手部地标模型。

11、手部地标模型包含手部21个关键点的2.5d坐标。

12、进一步地,计算每一手指的弯曲角度,具体计算方式为:

13、根据手部地标模型,针对同一手指上的4个关键点,按照从掌心到只见的顺序4个关键点的坐标分别为a=(x1,y1),b=(x2,y2),c=(x3,y3),d=(x4,y4),由此4个关键点得到两条向量l1=(x2-x1,y2-y1),l2=(x4-x3,y4-y3),计算两条向量之间的余弦值cosα,再用反三角函数求出α,即为该手指的弯曲角度。

14、进一步地,根据计算出的手指的弯曲角度,设定一定的阈值来判断手指的状态,每个手指的状态包括闭合、伸直和弯曲三种,构建手指状态编码,具体为:

15、针对拇指,设定阈值包括40°和53°,即若拇指的弯曲角度小于40°,则确定拇指状态为闭合,若拇指的弯曲角度为大于53°,则确定拇指状态为伸直,若拇指的弯曲角度在[40,53]之间,则确定拇指状态为弯曲。

16、针对除拇指外的其他手指,若设定阈值包括40°和75度,即若其他手指的弯曲角度小于40°,则确定该手指状态为闭合,若其他手指的弯曲角度为大于75°,则确定该手指状态为伸直,若其他手指的弯曲角度在[40,75]之间,则确定该手指状态为弯曲。

17、分别对闭合、伸直和弯曲三种状态进行赋值,获得手指状态编码。

18、进一步地,识别并建立左右手特征编码,具体为:

19、采用“00”编码表示当前无手被检测到,采用“01”编码表示仅检测左手,“10”编码表示仅检测右手,采用“11”编码则表示左右两只手同时检测。

20、进一步地,根据左右手特征编码以及手指状态编码,构建手部特征向量,具体为:

21、将左右手特征编码,以及两只手的特征向量按照从左至右的方向进行合并或拼接,形成一个新的组合特征向量即为手部特征向量。

22、进一步地,采用所构建的手部特征向量进行手势识别,具体方式为:

23、根据手部特征向量的构建过程,针对具备已知手势意义的手势进行手部特征向量的构建,将手势意义连同所构建的手部特征向量一起存入手势库。

24、将实时手势对应的手部特征向量与手势库中已知手势意义的手部特征向量进行匹配,若存在匹配成功的手部特征向量a,则以a对应的手势意义作为对实时手势的识别结果。

25、本发明另外一个实施例还提供了一种自定义静态手势识别判定系统,包括手势捕捉模块、手部特征向量构建模块、手势库构建模块、实时手势识别模块、手势库以及系统工作模式切换模块;该系统具备自定义手势和实时手势识别两种工作模式。

26、系统工作模式切换模块,用于接收用户输入的工作模式切换指令,确定系统的工作模式为自定义手势即模式1或者实时手势识别即模式2。

27、手势捕捉模块用于实时捕捉并接收手势信息,对手势信息进行处理以及检测识别,获得手部地标模型,送入手部特征向量构建模块。

28、手部特征向量构建模块,用于根据手部地标模型构建手部特征向量,并判断此时系统的工作模式,若为模式1则将当前构建的手部特征向量送入手势库构建模块,若为模式2则当前构建的手部特征向量送入实时手势识别模块。

29、手势库构建模块,获取用户输入的针对当前构建的手部特征向量对应到的手势意义,将手势意义连同所构建的手部特征向量一起存入手势库。

30、实时手势识别模块,将实时手势对应的手部特征向量与手势库中已知手势意义的手部特征向量进行匹配,若存在匹配成功的手部特征向量a,则输出a对应的手势意义作为对实时手势的识别结果,否则输出识别失败。

31、进一步地,手部特征向量构建模块,采用如下方式构建手部特征向量:

32、计算每一手指的弯曲角度。

33、根据计算出的手指的弯曲角度,设定一定的阈值来判断手指的状态,每个手指的状态包括闭合、伸直和弯曲三种,构建手指状态编码。

34、识别并建立左右手特征编码。

35、根据左右手特征编码以及手指状态编码,构建手部特征向量。

36、进一步地,计算每一手指的弯曲角度,具体计算方式为:

37、根据手部地标模型,针对同一手指上的4个关键点,按照从掌心到只见的顺序4个关键点的坐标分别为a=(x1,y1),b=(x2,y2),c=(x3,y3),d=(x4,y4),由此4个关键点得到两条向量l1=(x2-x1,y2-y1),l2=(x4-x3,y4-y3),计算两条向量之间的余弦值cosα,再用反三角函数求出α,即为该手指的弯曲角度。

38、根据计算出的手指的弯曲角度,设定一定的阈值来判断手指的状态,每个手指的状态包括闭合、伸直和弯曲三种,构建手指状态编码,具体为:

39、针对拇指,设定阈值包括40°和53°,即若拇指的弯曲角度小于40°,则确定拇指状态为闭合,若拇指的弯曲角度为大于53°,则确定拇指状态为伸直,若拇指的弯曲角度在[40,53]之间,则确定拇指状态为弯曲。

40、针对除拇指外的其他手指,若设定阈值包括40°和75度,即若其他手指的弯曲角度小于40°,则确定该手指状态为闭合,若其他手指的弯曲角度为大于75°,则确定该手指状态为伸直,若其他手指的弯曲角度在[40,75]之间,则确定该手指状态为弯曲。

41、分别对闭合、伸直和弯曲三种状态进行赋值,获得手指状态编码。

42、有益效果:

43、本发明提供的一种自定义静态手势识别判定方法及系统,基于mediapipe手部地标模型,对静态手势识别的现有模型进行了显著优化。通过计算检测到的每根手指的手部关键点之间的角度,并结合左右手特征,本发明提出了一套既灵活又普适的手势识别判定规则。这一创新性的方法使用简单的手势特征向量来表示各种手势,极大地提高了手势识别的准确性和效率。更为重要的是,本发明赋予了用户极高的自定义权限。用户可以根据不同的使用场景随时新建自己的手势命令,或者更新现有手势命令。这种自定义手势录入和实时手势库更新的功能,使得本发明在各种应用场景中都能展现出巨大的价值。无论是在智能家居、虚拟现实、增强现实,还是在其他需要人机交互的领域,本发明都能发挥出色的作用,极大地提升了用户体验和系统性能。

44、本发明在准确率方面表现较为出色,可以达到95.89%,完全能够满足实际应用的需求。

45、在实时性方面,本发明同样展现出优秀的性能。每帧手势识别处理时间平均为0.033秒,这一速度确保了手势识别的快速响应,为用户提供了流畅自然的交互体验。

46、本发明具备更为灵活的特性,支持用户根据个人需求自定义新的手势,同时也允许对原有手势库进行修改和扩展。这种高度的自定义性使得算法在实际应用中更具适应性和实用性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196682.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。