技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于视频分析技术和上肢位姿描述的情感识别方法与流程 > 正文

一种基于视频分析技术和上肢位姿描述的情感识别方法与流程

国知局
2024-08-05 11:58:04

本发明涉及一种基于视频分析技术和上肢位姿描述的情感识别方法。

背景技术：

1、情绪和情感表达是人类沟通的重要组成部分，负面情绪如焦虑、愤怒和抑郁等对个人健康和社会稳定产生广泛影响。因此，识别和理解负面情绪的能力对于及早干预个体心理健康问题以及对社会情感趋势的监测至关重要。

2、随着科技的不断发展，生物识别技术在情感识别领域的应用日益引起关注。生物识别技术通过分析人体的生理或行为特征，如面部表情、声音、心率、脑电、肢体动作姿势等，来判别个体的情感状态。这写技术的发展对于提高情感识别的准确性和精确度具有重要意义。在会议过程中，利用非接触的生物识别技术监测与会者的情感状态，可以对与会者的情绪加以判别，在必要的时候加以干预，尤其是对涉及安全、保密等重要岗位的工作人员有重要意义。

3、已有的相关技术涵盖了智能会议室、会议录播系统和智能表决系统等领域，例如申请号为cn202310157621.x的专利申请公开了一种采用前后端分离的智能会议系统，利用人脸签到机器人，完成人员签到情况更新，并展示在系统中；申请号为cn202310938845.4的专利申请公开了一种基于视频会议系统的注意力分析方法，基于视频会议系统的麦克风阵列和摄像头采集会议现场的音视频信息，确定会议现场的目标位置，生成行为数据生成，并对异常人员的注意力进行分析。但目前相关专利方法多利用视频数据进行人员定位识别，而没有利用视频中肢体动作对参会人员进行情绪分析，涉及参会人员状态的专利，大多数是从发言时长或目标注视时长等时间来判断是否状态异常，暂时还没有将上肢姿态动作与参会人员情绪相联系进行人员状态分析的相关专利。

4、目前，基于非语言表达的视觉模态信息的情绪识别工作大多只关注面部表情特征，然而面部表情特征的提取受限于图像数据质量，在面部图像分辨率较低的条件下无法成功捕获相应特征。作为非语言表达的重要组成部分，动作与情绪之间的联系也十分紧密，一般来说，身体动作提供的线索比脸部细微的变化更容易被感知。现有的研究表明，正、负面情绪通常都有相应的多种外显的上肢动作特征，例如人在焦虑状态下会有伸手挠头、双手叉腰、手掌握拳、双手环抱的动作；在恐惧时上肢会尽可能蜷缩内收，而喜悦时前臂稍微张开等。利用手势动作判别情绪状态的相关专利非常的少，但也有一些类似的情绪判别方法，例如申请号cn202310218419.3的专利公开了一种基于人工智能的语言教学辅助系统，其中包含的图像识别系统可以从体态和面部提取学习者学习状态及情绪变化。

技术实现思路

1、发明目的：本发明面向会议场景模式，提供一种基于视频分析技术和上肢位姿描述的情感识别方法，所要解决的技术问题是上肢位姿描述等。

2、本发明提供了一种基于视频分析技术和上肢位姿描述的情感识别方法，包括如下步骤：

3、步骤1，数据采集：使用两路摄像头，分别采集远景和近景视频数据，以获得全面的上肢动作信息；

4、步骤2，数据分析与预处理：对采集到的视频数据进行预处理，包括视频分割、人物目标区域提取以及上肢位姿和表情的关键点提取；

5、步骤3，根据上肢位姿的关键点和面部表情特征进行情感状态的识别。

6、步骤1中，所述两路摄像头分别是挂墙摄像头和会议桌面摄像头，使用两路摄像头从不同角度采集与会者上肢动作信息，其中两路摄像头相互独立，各自提取视频数据信息。

7、步骤1中，利用挂墙摄像头采集多个与会者的上半身视频，分割各个目标人物，并同时对视频中的上肢区域进行提取和识别。

8、步骤1中，利用会议桌面摄像头采集人脸视频，识别确定参会人员，同时用于后续表情识别。

9、步骤1中，所述会议桌面摄像头的个数与参会人数相同，放置于每个与会者前。

10、步骤3包括：

11、步骤3-1，视频数据分流处理；

12、步骤3-2，提取上肢关键点长时序的动态特征；

13、步骤3-3，构建情绪分析判别网络。

14、步骤3-1包括：

15、对会议桌面摄像头采集的视频进行人脸识别，判定与会者的身份信息，包括：

16、使用基于u-net图像分割的定位网络来细化输入特征映射，并生成包含对输入特征映射某些区域的关注的输出特征映射，每个掩膜块都是u-net网络的一个小方差，同时引入通道间的注意力机制，最终得到基于注意力机制的残差掩码网络，用于对面部表情进行识别，得到面部表情情感特征；

17、对挂墙摄像头采集的视频进行图像分割，提取出单人影响视频。

18、步骤3-2包括：

19、训练关键点提取网络，提取上肢关键点动作特征：首先针对视频中目标人物的上肢进行跟踪及提取，捕捉上肢和手部区域的动态特征，包括肢体运动方向、速率；然后利用上肢关键点提取技术，先通过rtm-m目标检测网络检测出视频中的目标人物并进行框选，再在框选区域内使用轻量优化后的vitpose-slim网络进行特征提取：原始图像先分割成16*16像素的块patch，再进行patch的嵌入，嵌入过程看作一次线性变换，原始网络嵌入过程和轻量优化后的网络嵌入过程通过以下方程表达，

20、原始网络嵌入过程：

21、

22、

23、轻量优化后的网络嵌入过程：

24、

25、

26、其中，(x1，x2，……xn)代表n个输入向量，wn,768代表维度为768维的嵌入矩阵的第(n，768)个元素，e384表示经过优化后输出的第384个向量；eorig和eopt分别代表原始网络的嵌入向量和轻量优化后网络的嵌入向量，xp代表输入图像的分块后的patch向量，和分别代表原始的嵌入矩阵和轻量优化后的嵌入矩阵，和是相应的偏置项；

27、通过n个transformer编码器层的处理，得到增强的patch嵌入，包含了图像块之间的长程依赖关系；n为大于0的自然数；

28、在transformer编码器的输出中，特殊的class token对应的嵌入向量捕获了整个图像的全局表示，嵌入向量被送入一个前馈神经网络中，用于回归人体关键点的坐标，回归的公式为：

29、

30、其中xclass是class token对应的embedding向量，ffn是前馈神经网络，是预测的人体关键点坐标。

31、步骤3-2中，在训练关键点提取网络的过程中，使用监督学习的方式，将预测的人体关键点坐标与标注的真实坐标之间的误差反向传播，优化模型参数；

32、通过关键点提取网络在视频帧中提取出的人体关键点后，将二维的人体关键点转换为三维热图堆叠，作为poseconv3d模型的输入：首先把二维关键点以热图的形式展现，每个热图包含k个关键点在帧的高度h和宽度w内的分布；人体关键点坐标视为三元组数据(xk，yk，ck)，利用所述三元组数据生成关键点热图和肢体热图；k取值为自然数；

33、对于关键点热图，根据每个关键点在图像中的位置创建以关键点为中心的高斯分布图；对于肢体热图，则根据连接两个关键点的线段，生成反映肢体位置的热图；

34、对于关键点热图的生成，根据关键点在图像中的坐标，使用高斯分布jkij来表示关键点的位置，公式为：

35、

36、其中，(xk，yk)是第k个关节的坐标，ck是关键点的置信度，参数σ用于控制高斯分布的扩散程度；(i，j)表示像素点位置坐标；

37、对于肢体热图lkij的生成，基于两个关键点间的线段，构建一个表示肢体位置的热图，公式为：

38、

39、其中，seg[ak，bk]表示连接关节a和b，的线段，函数d用于计算点(i，j)到线段的最短距离，和分别是两端关键点的置信度；最后将所有的热图沿时间方向堆叠，得到三维热图堆叠；

40、将生成的三维热图堆叠送入3d卷积网络中，提取上肢关键点长时序的动态特征。

41、步骤3-3包括：

42、多模态情感特征融合：将上肢关键点长时序动态特征和人脸情感特征融合成多模态情感特征；

43、情感状态分类：基于多模态情感特征，构建多模态融合的负面情感分析网络模型，完成情感状态分类。

44、本发明的原理是：

45、多摄像头数据采集：利用不同角度的摄像头，包括挂墙摄像头和会议桌面摄像头，采集多路视频数据，以获取全面的上肢动作信息和面部表情。

46、数据预处理：对采集到的视频数据进行预处理，包括视频分割，人物目标区域提取，以及上肢位姿和表情的关键点提取。这些步骤有助于准备数据以进行情感分析。

47、多模态特征融合：将上肢位姿描述、上肢关键点动态特征和人脸情感特征融合成多模态情感特征。这多维特征向量包含了多种信息，以更全面地描述参与者的情感状态。情绪分析判别网络：构建情感分析判别网络，基于多模态情感特征对目标人物的情感状态进行分类。这允许将情感状态分为正面、中性和负面三个状态。

48、本发明与现有技术相比，显著优点是：

49、首先，与现有的情感分析方法相比，本发明构建会议室场景下的情绪分析系统，捕捉与会人员在参会过程中的情绪变化。综合利用上肢位姿描述、上肢关键点长时序动态特征和人脸面部表情等特征，适用于对重点岗位、被关注群体的情感分析以及心理健康评估等实际应用场景，无需借助语音等信息完成情绪判别，提升了用户体验，具备较高的实用性。

50、其次，本发明采用视频序列关键点，增加了时间维度，基于肢体关键点为输入的posec3d网络的动作识别效果，在一定程度上克服了尺度、视角、动作速率快慢带来的影响，有效提升动作识别的效果及效率。

51、此外，本发明还考虑到多人场景的需求，能够在单个画面中进行多人的姿态估计和情感分析。与传统的单人情感分析方法相比，本发明也适用于多人交互、团队协作和群体情感分析等多种应用场景。

52、最后，本发明还包括实验验证和数据关联，通过大量实验数据的支持，确保了技术在实际应用中的可行性和有效性。与仅停留在理论研究层面的现有技术相比，本发明的技术更加切实可行，为情感分析和识别领域带来了显著的优势和创新。综上所述，本发明不仅弥补了现有技术的不足，还在准确性、实时性和适用性方面均具备明显的优势，为情感分析领域带来了重要的突破和进步。