一种用于面部表情模仿的关键帧检测算法的制作方法
- 国知局
- 2024-08-22 14:31:06
本发明涉及仿生机器人的,具体涉及一种用于面部表情模仿的关键帧检测算法。
背景技术:
1、仿生机器人是当前机器人领域的研究热点,特别是仿真人形机器人,这类机器人具有真实的面部结构,如何让仿生机器人具有丰富细腻的真实表情是本领域技术人员亟待解决的问题。
2、目前的解决方案主要包括两种:一是随机产生或者预先设定表情库,然后不断重复播放这些表情,这种处理方式极其原始呆板;二是分析视频内真实人类的面部表情,或者摄像头实时获取图像,分析真实人类面部表情,然后重现这些面部表情。这是目前最主要的解决方案,但是存在计算量大、表情抖动或者缓慢的问题,导致这类问题的主要原因是视频的帧率快慢无法准确掌握,如果视频帧率太慢,算法识别到的表情是不连续的,导致机器人表情抖动;如果视频帧率太快,算法识别到的表情变化缓慢,放大算法识别误差,不仅增加设备计算量,也会导致机器人表情复现不合理。
3、一方面,由于一个视频包含许多与所执行动作无关的帧,将这些帧纳入网络训练可能对训练产生反效果;另一方面,现有的视频帧提取方法主要采用采样处理,可能会导致删除具有关键信息的帧。这两个问题影响了训练模型的效果和提取关键信息的准确性。
4、针对上述问题,提出一种新颖的面部行为视频关键帧检测算法,基于双流resnet(residual network)深度网络,在双流resnet深度网络中,“双流”是指在算法中同时处理rgb图像和光流特征的输入流,增强网络对视频中运动和变化的理解;“resnet”是深度卷积神经网络的一种架构,它引入了残差学习结构,有助于训练非常深的神经网络。通过结合双流结构和深度残差网络,该算法能够自适应地抽取面部行为视频中的关键帧,使得后续算法不需要在全部视频帧上执行表情识别,而只需在关键帧上执行表情识别。
技术实现思路
1、本发明为弥补现有技术方面的不足,提出一种有助于实现仿真机器人对面部表情的精确模仿,基于双流resnet深度网络的用于面部表情模仿的关键帧检测算法。
2、具体技术方案如下:
3、一种用于面部表情模仿的关键帧检测算法,包括以下步骤:
4、步骤一:提取面部动作视频序列的光流特征;
5、步骤二:将面部动作视频的rgb图像和光流特征分别放入resnet网络提取特征;
6、步骤三:将rgb图像和光流特征经过resnet深度网络提取的特征进行特征拼接,使得特征中包含更多运动信息;
7、步骤四:将拼接后的特征经过全连接层得到每帧关键性得分;
8、步骤五:绘制视频序列关键性得分曲线,提取得分更高的视频帧。
9、作为优选:步骤一中,采用光流特征提取算法,提取面部动作视频序列的光流特征,输入是前后两帧的视频帧,输出是光流特征。
10、作为优选:步骤二中,将面部动作视频的每一帧的rgb图像和对应帧的光流特征分别输入到深度学习神经网络中,以resnet深度网络模型作为深度学习神经网络的模型。
11、作为优选:步骤三中,拼接操作将两个特征向量沿着一个维度合并成一个更长的向量,确保最终的特征表示同时包含了rgb图像的语义信息和光流特征的运动信息,拼接后的特征向量将成为面部动作的综合表示。
12、作为优选:所述拼接操作将两个特征向量沿着特征维度合并成一个更长的向量。
13、作为优选:在步骤四中,全连接层的每个神经元与前一层的所有神经元相连接,允许学习到特征之间的复杂关系,捕捉拼接后特征中的非线性模式和关键性信息,全连接层的输出为每帧的关键性得分,这些得分可以反映面部动作在每一帧中的重要性或显著性,得分越高表示该帧包含的面部动作信息越为显著。
14、作为优选:在步骤五中,得分更高的视频帧为发生突然过渡的动作部分,得分更高的视频帧与周围的视频帧相比具有更高的响应。
15、本发明的有益效果为:
16、1、通过该方案提出的关键帧检测算法能够集成到仿生机器人平台,对摄像头获取的真实人类的视频进行关键帧检测,为后续的视频帧分析进行前期的筛选,通过结合双流结构和深度残差网络,该算法能够自适应地抽取面部行为视频中的关键帧,不仅能够降低计算量,还能够让表情模仿乃至肢体动作模仿尽可能的平稳连续。
17、2、提供了视频序列关键帧提取的策略,为面部行为视频领域的研究和应用提供了有力支持,有助于实现对面部表情、运动和其他行为的精确识别,为计算机视觉、深度学习和人机交互领域的应用提供了先进的技术解决方案。
技术特征:1.一种用于面部表情模仿的关键帧检测算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于面部表情模仿的关键帧检测算法,其特征在于:步骤一中,采用光流特征提取算法,提取面部动作视频序列的光流特征,输入是前后两帧的视频帧,输出是光流特征。
3.根据权利要求1所述的用于面部表情模仿的关键帧检测算法,其特征在于:步骤二中,将面部动作视频的每一帧的rgb图像和对应帧的光流特征分别输入到深度学习神经网络中,以resnet深度网络模型作为深度学习神经网络的模型。
4.根据权利要求1、2或3任一项所述的用于面部表情模仿的关键帧检测算法,其特征在于:步骤三中,拼接操作将两个特征向量沿着一个维度合并成一个更长的向量,确保最终的特征表示同时包含了rgb图像的语义信息和光流特征的运动信息,拼接后的特征向量将成为面部动作的综合表示。
5.根据权利要求4所述的用于面部表情模仿的关键帧检测算法,其特征在于:所述拼接操作将两个特征向量沿着特征维度合并成一个更长的向量。
6.根据权利要求1或5所述的用于面部表情模仿的关键帧检测算法,其特征在于:在步骤四中,全连接层的每个神经元与前一层的所有神经元相连接,允许学习到特征之间的复杂关系,捕捉拼接后特征中的非线性模式和关键性信息,全连接层的输出为每帧的关键性得分,这些得分可以反映面部动作在每一帧中的重要性或显著性,得分越高表示该帧包含的面部动作信息越为显著。
7.根据权利要求1或5所述的用于面部表情模仿的关键帧检测算法,其特征在于:在步骤五中,得分更高的视频帧为发生突然过渡的动作部分,得分更高的视频帧与周围的视频帧相比具有更高的响应。
技术总结一种用于面部表情模仿的关键帧检测算法,包括以下步骤:步骤一:提取面部动作视频序列的光流特征;步骤二:将面部动作视频的RGB图像和光流特征分别放入Resnet网络提取特征;步骤三:将RGB图像和光流特征经过Resnet深度网络提取的特征进行特征拼接,使得特征中包含更多运动信息;步骤四:将拼接后的特征经过全连接层得到每帧关键性得分;步骤五:绘制视频序列关键性得分曲线,提取得分更高的视频帧。本发明基于双流ResNet深度网络,有助于实现仿真机器人对面部表情的精确模仿。技术研发人员:李嘉浩,袁野,刘娜,李清都受保护的技术使用者:上海卓益得机器人有限公司技术研发日:技术公布日:2024/8/20本文地址:https://www.jishuxx.com/zhuanli/20240822/278964.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表