技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于多示例的多尺度混合特征语音情感识别系统 > 正文

基于多示例的多尺度混合特征语音情感识别系统

国知局
2024-09-19 14:29:29

本发明涉及语音情感识别，具体地说，本发明涉及一种基于深度学习和多示例学习的多尺度混合特征语音情感识别系统。

背景技术：

1、近年来，随着人工智能的发展，人工智能极大地改善了人们的生活。随着人们对人机交互体验的需求不断增长，语音情感识别(speaker emotion recognition,ser)变得愈发重要。语音情感识别技术能够通过识别用户语音中的情感信息，及时调整计算机的反馈信息，从而使计算机的交互更加个性化，贴合使用者的需求。语音情感识别技术已在智能家居，智能客服等多个领域普遍应用。

2、语音情感识别是一种通过研究语音的声音特征与语音内容，从而识别和理解说话者的情感状态的技术。语音中包含的情感是多样的、复杂的。一句语音包含主导情感与其他细微情感，然而现有的语音情感注释工作具备一定的限制，往往给予一条语音单一的情感标签。这种语音情感的复杂性与情感标签的单一性之间的不匹配导致了语音情感识别模型训练困难。同时，语音情感识别过程中，会关注语音的多种信息，包括能量分布，波峰轨迹等。不同种类的语音特征与不同尺度的语音特征对于语音情感信息的表达侧重点不同，能够提供不同的情感信息。现有的部分模型使用单一的语音特征进行模型训练，所能提供的情感信息有限，导致模型在训练过程中无法充分学习，从而限制了模型在语音情感识别方面的性能。

3、本系统将多示例学习(multiple instance learning，mil)引入语音情感识别任务，找出表达主导情感的关键语音段，从而解决情感的复杂性与标签的单一性不匹配问题。多示例学习是一种监督学习的方法，被广泛应用于医学图像分析、文本分类、行为识别等领域。本系统将语音切分为多个语音段，每个语音段代表多示例学习中的示例，整句语音作为多示例学习中的包，从而将语音情感识别找出关键语音段的任务转化为多示例学习中找出关键示例的任务。本系统分别使用帧级别，片段级别，话语级别的语音特征训练语音情感识别模型，依靠不同尺度的特征提供丰富的情感信息，并融合基于不同尺度特征训练的模型，解决由于单一特征导致模型无法充分学习的问题。

技术实现思路

1、本发明提供了一种基于多示例的多尺度混合特征语音情感识别系统。在语音情感识别的实际应用中，往往存在语音情感的复杂性与语音情感标签的单一性之间的不匹配问题，这样的问题导致语音情感识别模型的训练效果不佳。同时，单一的情感特征无法提供足够的情感信息供模型学习。为解决上述问题，本发明提出使用多示例学习，寻找语音中表达主导情感的关键语音段，并通过将不同尺度语音特征训练的模型融合，使模型具备足够的语音情感信息，提升语音情感识别模型的情感识别效果。

2、本发明提供的基于多示例的多尺度混合特征语音情感识别系统使用流程包括如下步骤：

3、首先将将用于训练的语音按照多示例学习中包的特性构建帧级别的多示例包和构建话语级别的多示例包，随后利用帧级别的多示例包与话语级别的多示例包训练帧级别的多示例语音情感识别模型与话语级别的多示例语音情感识别模型。其次将用于训练的语音提取片段级别的语音特征，并利用片段级别的语音特征训练片段级别语音情感识别模型。最后对待识别的语音进行测试，首先构建帧级别的多示例包和话语级别的多示例包，并提取片段级别的语音特征，分别在三个模型中进行测试，并通过加权投票的方式对结果进行融合，得到待识别语音的情感类别。

4、本发明所采用的技术方案可以进一步细化。上述提到的构建帧级别的多示例包，具体为：一条语音s＝{s1,s2,…,sc,…st}∈r1×t，其中t是语音的采样点数量，sc代表语音的第c个采样点。将s其按照窗长m与窗移l进行语音段的分割，对分割得到的每个语音段提取特征，得到帧级别的多示例包bf＝{f1,f2,…,fm…fn}∈rn×u×d，其中n为一条语音所分割出来的语音段数量，即包中帧级别示例的数量，u为每个语音段经过分帧处理得到的帧数，d为每一帧语音的特征维度，fm代表第m个语音段的帧级别示例。上述提到的构建话语级别的多示例包，具体为：对于s∈r1×t，提取频谱特征g∈rw×h，即尺寸为w×h的图片。将其按照频率维度切分后，得到由nd个图片块组成的话语级别的多示例包其中nd为包中话语级别示例的数量，pg∈rw×l表示第g个话语级别示例，是尺寸为w×l的图片。

5、上述提到的帧级别的多示例语音情感识别模型包含两个模块，分别是一个特征信息提取的卷积模块以及关键示例定位的注意力机制模块。对bf输入特征信息提取的卷积模块并将每个示例fm的输出结果展平，进行深度特征提取，得到深层嵌入特征集合im代表第m个帧级别示例的深度嵌入特征，维度大小为de。随后将be输入进关键示例定位的注意力机制模块，注意力机制模块会对特征be中的每一个im进行打分，得到权重分数矩阵其中ne为情感识别任务中的情感类别数，并进行加权计算：

6、

7、ek为对bf所对应的语音在第k类情绪的句子级深度嵌入特征，akm为注意力机制在第k类情绪上对第m条语音段的动态权重。动态权重akm借鉴了加性注意力模型思想，并引入门控思想进行构建：

8、

9、其中v，u，wk均为网络参数，σ为sigmoid激活函数，tanh为tanh激活函数。

10、ne个情感的句子级深度嵌入特征，经过各自空间的线性分类器，得到该空间的预测值。对所有的预测值进行归一化操作，得到最终的帧级别概率分布向量利用交叉熵损失函数将p1与该语音的真实标签进行损失计算，并利用adam优化器进行参数优化，从而得到帧级别多示例语音情感识别模型。

11、上述提到的的话语级别多示例语音情感识别模型的模型学习过程与帧级别多示例语音情感识别模型基本相同，将bd输入后得到话语级别概率分布向量利用交叉熵损失函数将p3与该语音的真实标签进行损失计算，并利用adam优化器进行参数优化，从而得到话语级别多示例语音情感识别模型。

12、上述提到的片段级别的语音特征，其提取方式如下：对语音s按照固定的语音长度与重叠，进行语音切分，得到语音片段seg，并对其提取对数梅尔谱图特征。上述提到的片段级别语音情感识别模型，训练过程如下：将对数梅尔谱图特征输入片段级别语音情感识别模型，得到语音片段的概率分布向量vj，并通过交叉熵损失函数将vj与该语音片段的情感标签进行损失计算，并利用adam优化器进行参数优化，从而得到片段级别多示例语音情感识别模型。整句语音的片段级别概率分布向量p2的计算方式为：

13、

14、上述提到的对待识别的语音进行测试，具体流程为：对待识别语音stest构建帧级别的多示例包与话语级别的多示例包，并提取片段级别的语音特征，进行帧级别计算其在帧级别多示例语音情感识别模型、片段级别多示例语音情感识别模型和话语级别多示例语音情感识别模型的概率分布向量p1test，p2test，p3test，将其加权方式进行融合，得到待识别语音的最终预测结果p，其计算方式如下：

15、p＝argmax(w1·p1+w2·p2+w3·p3)

16、其中w1，w2，w3分别是为帧级别多示例语音情感识别模型、片段级别多示例语音情感识别模型和话语级别多示例语音情感识别模型上概率分布向量的权重系数，其约束条件为：

17、w1+w2+w3＝1

18、本发明有益的效果是：相比于单特征的语音情感识别系统，所提出的基于多示例的多尺度混合特征语音情感识别系统能够将不同尺度的语音特征相结合，使模型能够学到更多的情感信息，从而提升语音情感识别的性能。同时，系统能够在不同尺度的特征上运用多示例学习找到表达主导情感的关键语音段，一定程度上解决了情感的复杂性与情感标签的单一性之间的不匹配导致了语音情感识别模型训练困难的问题。