技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于深层次语音分析技术的情感状态特征提取方法与流程 > 正文

一种基于深层次语音分析技术的情感状态特征提取方法与流程

国知局
2024-06-21 11:49:00

本发明涉及机器学习、深度学习、计算机视觉、人体动作识别、非接触式心理状态评估，特别涉及一种基于深层次语音分析技术的情感状态特征提取方法。

背景技术：

1、基于多模态融合技术的心理健康快速筛查方法与系统，是一种快速筛查人的心理健康状态的技术，主要是通过收集人的面部表情，颈部肌肉振动和语音语调变化，对人的心理健康状态进行推断。在现代社会，该技术已经被广泛应用于智能设备开发、健康管理、青少年心理健康筛查，企业高管以及高危人群心理评估，驾驶舱内司机心理健康分析等方面。心理健康筛查，包括人对外界或自身刺激的心理健康程度的反应，也包括伴随这种心理反应的生理反应。分析心理学的创始人弗洛伊德曾提出人类心理生理和能量之间必然存在联系的构想，虽然这种联系的机制还没有最终定义。以前有专家已经尝试对个人分析情绪状态的动态进行定量分析，诺贝尔奖获得者康拉德·洛兰兹(konrad lorenz)是二十世纪侵略研究中最著名的专家之一，他认为动物身体活动与侵略水平之间存在着不可分割的联系。巴西心理学家e.mira ylópez提供了一种真正的动力学诊断技术，它被广泛应用于一般临床心理学和个性心理学，可惜的是，他的诊断技术是手动、费力和耗时的，也需要人工处理最终结果，从而限制了其应用范围。

2、全球科学家目前已经进行了大量的心理生理学研究，定义了对人的心理健康状态进行信息描述的参数和技术，包括脸部表情肌肉运动，眼睛和头部运动，声音韵律变化等。h.tamar的经典专著详细阐述了感官生理学的系统知识，特别强调了感官系统和神经生理学中的抑制问题。p.simon simonov的情绪信息论与伊万·巴甫洛夫对高等神经(心灵)活动研究的系统性方法是密不可分的，他对情绪心理学的分析和研究人类与动物反应的大脑机制，为情绪量化提供了常用的方法和公式。g.p.gladyshev教授和人类热力学专家l.thims的层次热力学通过基本物理定律-热力学第一和第二定律，研究并分析了平衡状态下的物体(包括人类)。潜在情绪智能分析系统振动影像技术，揭示了人类心理活动的物理现象，在不同程度上反映出该技术研究人员修正补充以上所列出的科学理论，创建远程非接触式扫描系统的工作模式，并且识别人的心理生理状态。

3、国内相关数据库及网络检索结果显示：孙洪央通过实验室诱发压力状态下的不同情绪和紧张程度，采集心率、皮肤电等多种生理参数，将粒子群优化算法分别与k近邻算法和支持向量机算法相结合，对情绪相关生理信号特征进行选择及情绪分类，为心理学中心理压力的评价和干预提供客观有效的依据和手段。中国专利202110060419.6公开了一种基于微表情与脑波分析算法的心理健康状况分析算法，通过对儿童的脑波信号以及微表情的数据收集，同时利用计算机技术与心理学的科学交叉，提升了对儿童心理焦虑状况的识别效果。中国专利202210768652.4公开了一种基于卷积神经网络表情识别的校园心理健康评估-反馈方法，收集学校学生的脸部数据，将脸部数据作为表情识别的分析数据，通过人脸表情识别卷积神经网络模型进行分析，当消极情绪比例增高时，可通过网络传输反馈给学校心理健康中心以及相关学生工作部门负责人员。中国专利202210533238.5公开了一种基于脸检测识的心理健康预判方法，通过高泛化的模型分析短时间内获取的面部表情行为数据，综合分析人物性格、心理情绪状态，最终做出多维度、可视化的心理画像后，进行有效评估进行心理健康预警。中国专利202010337887.9公开了一种心理状态测试评估方法，通过振动图像技术处理所收集的前庭神经反射的头部影像，记录受访者的心理反应，并运用算法进行相应的多元智能(mi)数据的分析，以此判断被测试者的心理状态。中国专利201810612829.5提出了一个基于神经网络mlp(多层感知模型)对基频、时长、音质和清晰度等声学参数进行深层次语音特征建模提取人在表达心理情感时所呈现的语音语调特征状态变化，中国专利201810613472.2提出一种基于时序的多模态情绪语义融合判断方法，通过rnn递归神经网络把每个单模态情绪理解的中间神经网络表示形式按时间序列组织起来，多模态rnn递归神经网络的每个时间点汇集了每个单模态的rnn递归神经网络的当前时间点上的神经网络输出，在综合了多模态后，每个时间点的输出即是最终该时间点的情绪判断结果。

4、综合分析国内所检文献，国内已见心理状态测试评估方法，通过振动图像技术处理所收集的前庭神经反射的头部影像，记录受访者心理反应，并运用算法进行相应的多元智能数据分析，以此判断被测试者心理状态的报道，已见基于微表情与脑波分析算法的心理健康状况分析算法，通过对儿童脑波信号以及微表情的数据收集，同时利用计算机技术与心理学的科学交叉，提升对儿童心理焦虑状况识别效果的报道，但本发明所述在进行心理测评过程中，除了传统的量表施测外，同时结合微表情算法，还利用了振动图像检测技术以及深层次语音情感分析技术，对心理健康进行评估预警，在现有技术的文献中未见述及；

5、本发明创新性地提出心理健康快速筛查方法，通过检测异常心理活动产生的潜意识反映在个体外在表现的生理反应特征，包括微表情，颈部肌肉振动，语音语调等，进行多模态融合后，与正常人的生理反应特征进行相似度比对，从而快速判断心理健康状况。

技术实现思路

1、本发明提出了一种基于深层次语音分析技术的情感状态特征提取方法，在进行心理测评过程中，除了传统的量表施测外，同时结合微表情算法，可以快速判断心理健康状况，本发明通过以下技术方案来实现。

2、首先涉及一种基于多模态融合技术的非接触式心理状态评估系统，该系统包括：数据采集设备、输出设备和算法计算单元；所述数据采集设备用于采集特征点；所述输出设备用于数据传输；所述算法计算单元用于利用计算单元的算力进行多模态语义特征提取和多模态融合分析。

3、上述的基于多模态融合技术的非接触式心理状态评估系统，数据采集设备包括侧面特征采集摄像头、正面特征采集摄像头和拾音器；所述侧面特征采集摄像头的像素需要不小于200w，最高分辨率需要达到1920×1080，支持2.7mm—13.5mm镜头且可变焦；所述拾音器的频率响应需达到20-20khz，灵敏度达到-42db，信噪比不小于60db，码率64kbps/128kbps。

4、上述的基于多模态融合技术的非接触式心理状态评估系统，系统还包括：

5、侧面视觉采集模块，用于从所述侧面特征采集摄像头实时采集视频流，提取人体的头、颈、肩部的特征点；

6、正面视觉采集模块，用于从所述正面特征采集摄像头实时采集视频流，提取人面部肌肉单元的特征点，眼睛动线的特征点，头部朝向的特征点，以及颈、肩部正面肌肉特征点；

7、语音特征采集模块，用于从所述拾音器采集说话时候的音频流，提取人说话时候的韵律特征点；

8、脸部微表情特征分析模块，用于提取人脸68个特征点进行表情聚类，利用所述提取的特征点生成8种情绪分类；

9、肌肉振动影像分析模块，用于分析脸部，颈部，肩部的46个肌肉单元特征，计算其振动频率和动作强度；

10、深层次语音情感分析模块，用于从语音流中提取最具代表性的特征值，所述特征包括23个特征值；

11、基于视线估计分析模块，用于通过对眼球瞳孔的视线方向和眼球位置提取特征，拟合提取情绪分类和眼球转动方向/视线方向的相关性特征；

12、多模态融合计算模块，用于对所有模块采集的特征点，针对人的攻击性，情绪能量场，焦虑程度，谎言程度，心理情绪稳定状态进行融合从而得到相应心理状态指标。

13、上述的基于多模态融合技术的非接触式心理状态评估系统，系统包括快速评估模式、自测评估模式和谈话评估模式三种工作模式。

14、上述的基于多模态融合技术的非接触式心理状态评估系统，快速评估模式具体包括以下步骤：

15、步骤11)操作员填写被测人的详细信息，系统加载测试界面。

16、步骤12)被测人进入测试房间后，坐在数据采集设备面前，调整好距离以及姿势，操作员解释测试程序并开始进行测试，侧面特征采集摄像头、正面特征采集摄像头和拾音器开始采集被测人的特征点，被测人确保60秒内保持静止，没有晃动，拍手等肢体动作；

17、步骤13)测试完成后，被测人离开房间，系统生成结果并返回初始模式。

18、上述的基于多模态融合技术的非接触式心理状态评估系统，自测评估模式具体包括以下步骤：

19、步骤21)操作员填写被测人的详细信息并选择相关测试问卷，系统加载测试界面；

20、步骤22)被测人进入房间后，坐在数据采集设备面前，调整好距离和姿势，操作员解释测试程序并离开房间，让被测人独自完成测试；

21、步骤23)被测人确认其个人信息，开始进行测试，侧面特征采集摄像头、正面特征采集摄像头和拾音器开始采集被测人的特征点，被测人逐一用语音回答屏幕出现的问题，在测试过程中，被测试人没有肢体动作；

22、步骤24)测试完成后，被测人离开房间，系统生成结果并返回初始模式。

23、上述的基于多模态融合技术的非接触式心理状态评估系统，谈话评估模式具体包括以下步骤：

24、步骤31)操作人员向被测人介绍测试的性质，告知被测人大声清晰地回答问题；

25、步骤32)操作员填写被测人的详细信息，并选择要执行的测试；

26、步骤33)操作员打开心理健康筛查系统并加载所选问题脚本；操作员逐一朗读问题，每读一个问题，等待被测人回答完成后，再读下一问题，同时系统监测对话，分析被测人的回答；

27、步骤34)测试完成后，系统自动创建心理状态评估报告并存储。

28、上述的基于多模态融合技术的非接触式心理状态评估系统，系统的工作环境需要保持清洁安静。

29、一种基于多模态融合技术的非接触式心理状态评估方法，该方法通过数据采集设备采集得到多模态数据，然后对所述多模态数据分别提取面部微表情、肌肉动作单元振动强度、头颈肩正面和侧面的肌肉振动影像以及语音语调的情感特征向量，利用transformer多模态融合框架计算所述情感特征向量得到在帧序和空间域上综合振动频率的分布，将计算得到的综合振动频率和正常状态人的综合振动频率比较，从而映射到心理情绪状态能量、焦虑程度、攻击性程度和谎言程度的分类并计算相应心理状态程度的评估得分。

30、本发明的一种基于深层次语音分析技术的情感状态特征提取方法，根据语音语调的情感特征向量提取心理状态特征，包括：建立基于互补声学表征的并行模型，所述并行模型结合卷积神经网络处理局部特征与transformer捕获全局依赖关系的优势，并使用对数梅尔频谱和梅尔倒谱系数作为并行模型输入；此外，声道长度扰动被用以进行数据增强，transformer还在ravdess数据集上进行了预训练。

31、进一步的，上述的基于多模态融合技术的非接触式心理状态评估方法，其特征在于，所述根据语音语调的情感特征向量提取心理状态特征的关键步骤包括：

32、步骤1)infsort分数排序方法：通过计算每次检查点迭代下，训练实例的z对z’的损失并相加得到一个train value值vi_j，把z对每个测试实例的train value求出相加得到z对test测试集的影响分数s_i，对所有的训练实例求出s_i，并排序得到infsort分数排序；

33、步骤2)寻找关键数据：选择infsort分数的前k个训练实例作为topk，最后k个作为bottomk，随机获得k个作为randomk，重新输入到模型中比较loss收敛速度和准确率，用结果来证明，topk选择的数据就是最关键的数据；

34、步骤3)排除过拟合：用infsort分别计算每个类的最前和最后的训练实例，把这四类最前的实例合并为cgtopk，最后的数据合并为cgbottomk；重新输入。

35、本发明采用以上技术方案，具有以下有益效果：

36、本发明采用血流信息光学成像技术、视频图像微振动分析技术和深层次语音情感分析技术，与现有的心理测评技术相比，除了传统的量表施测外，本发明同时结合微表情算法，通过算法摄像头对人面部、颈部肌肉震颤的微动信息捕捉以及拾音器对人语音声纹采集，从而达到对焦虑、自信、攻击性等多项心理状态指标、情感状态等的识别，并进行多模态融合算法进行综合分析，与正常人心理状态特征向量矩阵相似度比对，可以更加快速且正确判断心理健康状况。