技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音情感识别方法、系统、存储介质、电子设备  >  正文

一种语音情感识别方法、系统、存储介质、电子设备

  • 国知局
  • 2024-06-21 11:54:26

本发明涉及语音情感识别,尤其涉及一种语音情感识别方法、系统、存储介质、电子设备。

背景技术:

1、语音情感识别方法主要分为基于情感特征提取的和基于语谱图分类的语音情感识别两部分。目前的研究中,这两种方法都广泛地与深度学习领域的相关算法进行结合,以获得更好的识别效果。现分别对这两种方法进行阐述。

2、①基于情感特征提取的语音情感识别

3、这类语音情感识别方法一般包括声音信号预处理、情感特征提取和情感分类等部分。情感特征提取是其中最重要的环节,这是因为语音信号的声学特性十分复杂,而其中并非所有特征都与情感有关,因此如何从中找到反映情感差异信息的特征参数直接影响最终的识别准确率,目前常见的语音情感特征包括谱特征、韵律特征、音质特征以及前沿语音情感特征四部分。一般还需对提取的情感特征进行降维,之后再使用传统机器学习的方法,比如svm、knn、hmm等,对其进行情感分类。传统的情感特征提取由人工完成,目前常见的方法则倾向于通过深度学习的算法来自动完成情感特征提取,以此避免人工提取情感特征时的巨大不确定性。

4、②基于语谱图分类的语音情感识别

5、基于语谱图的语音情感识别方法一般是在经过声音信号预处理和转换成语谱图这两个环节之后,将这类识别问题转换成图像分类问题,并使用深度学习的相关算法建立模型已完成情感分类,这类方法通常能获得更好的识别准确率,但计算成本较大,并且有赖于大规模的数据进行模型训练。而实际上,在具体的应用领域,并不总是能轻易获取大规模的且有标注的数据。因此使用半监督学习方法进行语音情感识别是具有重要意义的。

6、在现实世界中,标记数据(有标签的数据)往往比无标记数据(没有标签的数据)更难获取。传统的监督学习算法需要大量的标记数据来训练模型,但是标记数据的获取成本很高,因此半监督学习应运而生。半监督学习旨在利用有限的标记数据和大量的无标记数据来提高模型的性能。通过利用无标记数据的信息,半监督学习可以更好地利用数据的潜在结构和分布,从而提高模型的泛化能力。现有的半监督学习方法可归纳为四类:基于熵最小化方法、基于生成式方法、基于一致正则化方法和基于混合方法。

7、熵最小化方法的基本思想是,无标签数据的预测输出应该尽可能地"确定"。其典型策略就是伪标签方法,但仅依赖伪标签方法的研究较少。熵最小化方法可以与其他学习方法结合使用,有研究将自监督的伪标签分类网络与有监督的回归模型相结合,创建端到端的语音情感识别框架,同时鼓励情感特征的有效分离。此外,还有方法从隐私和数据处理效率出发,结合联邦学习和自训练学习,以充分利用设备上的标注和未标注数据,均可提高语音情感识别的性能。这种方法的优势在于能够很好地利用无标签数据的潜在信息,提高模型对数据的泛化能力。

8、生成式方法所服从的假设是生成式模型假设。旨在通过对联合分布的建模来同时利用有标签数据和无标签数据的策略。该方法通常假设数据是由一个潜在的生成过程产生的,并试图通过对这个过程建模来了解数据的结构。目前应用于语音情感识别的这类研究主要是基于半监督自编码器框架的。

9、一致正则化方法是一种利用无标签数据来增强学习模型性能的技术。该方法的核心概念是,如果对输入数据进行微小的扰动,一个好的模型应该产生稳定的预测结果,即模型的输出在输入数据的微小变化下应保持一致。一致正则化方法在语音情感识别中的应用以梯形网络为主。通过这种方式,模型可以更加充分地利用无标签数据,进而在有限的标注数据条件下,提升模型的性能。

10、基于混合的方法指结合使用不同半监督学习技术的策略,以便从多个角度利用有标签和无标签数据。混合方法试图通过融合生成式和判别式方法、或者不同类型的判别式方法(如一致性正则化和自训练)来提取最大的信息量,从而提高学习算法的性能。混合方法在其他领域已展现巨大的研究前景,但是目前在语音情感识别中的应用还较少。

11、基于半监督的语音情感识别研究大多假设无标签的情感样本与有标签样本处于同一个标签空间内,忽略了情感类别的特殊性,可能会导致错误的累积。样本数据的特征分布是决定其情感类别的重要信息,大多研究人员忽视对有标签数据的特征分布的合理分析与有效复用。由于标注者的主观感受差异、待标注的语音片段中存在不同类别情感表达之间的转换或是在时间维度上存在表达的强弱差异,导致标注过程中各个标注者存在不一致的标签。

技术实现思路

1、为了解决上述问题,解决半监督语音情感识别在无标签数据处理的问题,通过聚类概率得分评估评估簇与情感类别之间的统计关系分析数据的特征分布和数据的模式,并通过合理的情感类别归一化缓解数据不平衡问题。

2、一种基于k-means聚类的半监督语音情感识别方法,包括以下步骤:

3、s1、获取语音信号,将语音信号处理为语谱图数据,并划分为有标签的语谱图数据和无标签的语谱图数据;

4、s2、使用efficientnet-b1模型对有标签的语谱图数据进行特征提取,得到特征t1,对特征t1进行k-means聚类,获得聚类类别中的情感类别占比概率;

5、构建分类模型,使用有标签的语谱图数据对分类模型进行预训练,得到情感概率得分;根据聚类类别中的情感类别占比概率与情感概率得分判断分类模型的预训练效果,得到预训练后的分类模型;

6、使用有标签的语谱图数据训练后的efficientnet-b1模型对无标签的语谱图数据进行特征提取,得到特征t2;

7、利用特征t1计算不同情感类别的特征均值μ,将μ作为初始聚类中心对特征t1进行k-means聚类,不断迭代得到最终的聚类中心,并统计特征t1到最终的聚类中心的距离均值和标准差,以距离均值和标准差之和作为过滤阈值;

8、计算特征t2到各个簇的距离,将距离超过设定阈值的数据舍弃,得到过滤后的无标签的语谱图数据;

9、s3、对有标签的语谱图数据进行弱增强、对过滤后的无标签的语谱图数据分别进行弱增强和强增强,将增强后的数据一起输入预训练后的分类模型进行训练,并使用损失函数进行约束,得到最终的分类模型;

10、s4、将待识别的语谱图数据输入最终的分类模型,得到语音情感识别结果。

11、进一步地,对特征t1进行k-means聚类,获得聚类类别中的情感类别占比概率表示为:

12、

13、其中,ni表示某一聚类类别的样本总数,nj表示某一情感类别的样本总数,i∈{1,2,…,k},j∈{1,2,…,c},k和c分别表示聚类类别数和情感类别数。

14、进一步地,根据聚类类别中的情感类别占比概率与情感概率得分判断分类模型的预训练效果,具体为:将聚类类别中的情感类别占比概率与情感概率得分进行加权融合,根据加权融合结果判断分类模型的预训练效果:

15、pout=αpclassify+(1-α)pcluster

16、其中,pout为加权融合结果,α为权重,pcluster为聚类类别中的情感类别占比概率,pclassify为情感概率得分。

17、进一步地,步骤s2中,在使用无标签的语谱图数据之前,对无标签的语谱图数据进行筛选,人工标注无标签数据,其中,同一无标签的语谱图数据的人工标签集合为为第t个无标签的语谱图数据的人工标签集合,有标签的语谱图数据的标签集合为slabel,当从无标签的语谱图数据中剔除第t个无标签的语谱图数据。

18、进一步地,使用有标签的语谱图数据训练后的efficientnet-b1模型对无标签的语谱图数据进行特征提取,提取特征t,使用t-sne对特征t进行非线性降维,得到特征t2。

19、进一步地,使用损失函数进行约束具体为:

20、有标签的语谱图数据进行弱增强后输入预训练后的分类模型进行训练的损失为:

21、

22、其中,ll为有标签的语谱图数据进行弱增强后输入预训练后的分类模型进行训练的损失,b为有标签的语谱图数据的批大小,h(pl,p(y|aw(xl)))为pl和p(y|aw(xl))两个概率分布之间的交叉熵损失,pl为伪标签概率分布,p(y|aw(xl))表示分类模型输入为aw(xl)时预测的类别概率分布,aw(xl)表示弱增强后的有标签的语谱图数据,xl表示有标签的语谱图数据;

23、过滤后的无标签的语谱图数据进行弱增强后输入预训练后的分类模型,得到伪标签,对过滤后的无标签的语谱图数据进行强增强后输入预训练后的分类模型,得到语音情感识别结果a3,并将语音情感识别结果a3与所述伪标签进行匹配并计算损失:

24、

25、其中,lu为过滤后的无标签的语谱图数据进行强增强后输入预训练后的分类模型进行训练与伪标签进行匹配的交叉熵损失,β是超参数,βb为过滤后的无标签的语谱图数据的批大小,为和p(y|as(xu))两个概率分布之间的交叉熵损失,qu是分类模型对过滤后的无标签的语谱图数据预测的类的概率分布,p(y|as(xu))表示分类模型输入为as(xu)时预测的类别概率分布,as(xu)表示强增强后的过滤后的无标签的语谱图数据,xu表示过滤后的无标签的语谱图数据,τ是置信度;

26、通过反向梯度传播最小化有标签语谱图数据及过滤后无标签的语谱图数据的总损失完成整个算法模型更新,有标签语谱图数据及过滤后无标签的语谱图数据的总损失为:

27、l=ll+ωlu

28、其中,l为有标签语谱图数据及过滤后无标签的语谱图数据的总损失,ω表示过滤后无标签的语谱图数据的权重。

29、本发明还提出一种基于k-means聚类的半监督语音情感识别系统,包括:

30、数据获取模块,用于获取语音信号,将语音信号处理为语谱图数据,并划分为有标签的语谱图数据和无标签的语谱图数据;

31、模型预训练和数据过滤模块,用于使用efficientnet-b1模型对有标签的语谱图数据进行特征提取,得到特征t1,对特征t1进行k-means聚类,获得聚类类别中的情感类别占比概率;

32、构建分类模型,使用有标签的语谱图数据对分类模型进行预训练,得到情感概率得分;根据聚类类别中的情感类别占比概率与情感概率得分判断分类模型的预训练效果,得到预训练后的分类模型;

33、使用有标签的语谱图数据训练后的efficientnet-b1模型对无标签的语谱图数据进行特征提取,得到特征t2;

34、利用特征t1计算不同情感类别的特征均值μ,将μ作为初始聚类中心对特征t1进行k-means聚类,不断迭代得到最终的聚类中心,并统计特征t1到最终的聚类中心的距离均值和标准差,以距离均值和标准差之和作为过滤阈值;

35、计算特征t2到各个簇的距离,将距离超过设定阈值的数据舍弃,得到过滤后的无标签的语谱图数据;

36、模型训练模块,用于对有标签的语谱图数据进行弱增强、对过滤后的无标签的语谱图数据分别进行弱增强和强增强,将增强后的数据一起输入预训练后的分类模型进行训练,并使用损失函数进行约束,得到最终的分类模型;

37、结果获取模块,用于将待识别的语谱图数据输入最终的分类模型,得到语音情感识别结果。

38、本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音情感识别方法。

39、本发明还提出一种电子设备,包括处理器和存储器,所述处理器与所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括计算机可读指令,所述处理器被配置用于调用所述计算机可读指令,执行上述的语音情感识别方法。

40、本发明提供的技术方案带来的有益效果是:

41、本发明使用无标签数据进行k-means聚类,与有标签数据经过分类模型的分类结果进行融合对分类模型进行预训练,缓解数据不平衡问题,使分类模型更关注情感特征信息;将k-means聚类与半监督方法整合在一起,使用半监督聚类对无标签数据的进行滤除,更有效地使用无标签数据;使用预训练后的分类模型和有标签数据及过滤后的无标签数据对分类模型进一步训练,提升分类模型的性能。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24398.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。