技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于语义语调的语音情感分析方法与流程  >  正文

一种基于语义语调的语音情感分析方法与流程

  • 国知局
  • 2024-06-21 11:56:22

本发明涉及情感分析,尤其涉及一种基于语义语调的语音情感分析方法。

背景技术:

1、在中文语音情感分析领域,传统方法主要基于两种途径:声学特征分析和文本语义分析。声学特征分析侧重于提取语音信号中的声音属性,如音调、强度和节奏,而文本语义分析则转换语音为文字,以提取和分析语言内容中的情感倾向。然而,这些方法各自存在局限性。

2、首先,声学特征分析往往忽略了语言内容的语义信息,这在处理具有复杂语境或隐含含义的语音时可能导致情感分析的不准确。例如,在一句带有讽刺意味的语句中,仅凭声学特征可能无法准确识别出隐藏的情感倾向。其次,文本语义分析虽然能够捕捉语言内容的情感色彩,但通常缺乏对语音中声音波动和强度变化的考虑,这些声学特征在表达情感时同样重要。例如,即使文本内容相同,不同的语气和语调也可能传达出不同的情感。现有技术面临的核心难点包括:1.声学与语义信息分离:在处理复杂的中文语境时,单独依赖声学特征或文本语义分析常常难以准确识别情感,因为这两种信息通常是相互补充的。2.处理复杂语境的限制:传统方法在处理具有双关语、讽刺或隐喻等复杂语言表达时效果不佳。3.高度依赖数据质量:传统方法对数据的质量和数量有很高的依赖性,数据的不足或低质量可能严重影响分析结果的准确性。

3、因此,如何有效地结合声学特征与语义信息,提高中文语音情感分析的准确性和适应性,是本领域技术人员亟需解决的问题。

技术实现思路

1、本发明的一个目的在于提出一种基于语义语调的语音情感分析方法,本发明能够高效处理大量语音数据,满足快速处理需求,适用于大规模数据分析场景。

2、根据本发明实施例的一种基于语义语调的语音情感分析方法,包括如下步骤:

3、s1、收集中文语音数据,并将其转换为数字信号;

4、s2、使用长短时记忆网络对上述数字信号进行处理,提取语音的声学属性;

5、s3、通过自然语言处理技术将语音数据转换为文本形式,并使用transformer模型分析文本;

6、s4、将s2中提取的声学属性与s3中提取的语义信息结合,使用卷积神经网络处理声学属性与s3中提取的语义信息的融合特征;

7、s5、基于s4中处理的结果,通过应用深度学习技术分析整合后的数据,确定语音中的情感倾向和强度;

8、s6、输出最终的情感分析结果。

9、可选的,所述s1具体包括:

10、s11、使用麦克风或类似的音频捕获设备收集中文语音输入;

11、s12、将收集到的语音输入转换为模拟信号,并通过模数转换器将模拟信号转换为数字信号,表示为,其中代表时间;

12、s13、对转换得到的数字信号进行预处理;

13、s14、对预处理后的数字信号进行采样和量化,通过将连续的信号转换为离散的数据点,获取中文语音的特性;

14、s15、存储处理后的数字信号。

15、可选的,所述s2具体包括:

16、s21、接收经s1预处理后的数字语音信号,并将其分割为一系列固定长度的帧,每帧包含个采样点;

17、s22、通过对每一帧应用窗函数,来减少帧边缘的不连续性;

18、s23、对每一帧经窗函数处理的数据计算梅尔频率倒谱系数,通过应用快速傅里叶变换转换每一帧为频率域的表示,并映射到梅尔尺度上反映人类的听觉感知:

19、;

20、其中,是离散余弦变换,表示将时域信号转换为频域信号,是梅尔滤波器在频率点的响应;

21、s24、将计算得到的每一帧系数作为特征输入到长短时记忆网络中;

22、s25、长短时记忆网络由多个层组成,每个层含多个lstm单元,每个单元接受一个特征向量和前一个时间步的隐藏状态作为输入,计算当前时间步的隐藏状态,计算过程包括三个门控制结构——遗忘门,输入门,输出门,和细胞状态:

23、;

24、;

25、;

26、;

27、;

28、其中,是s型激活函数,是双曲正切激活函数,和分别是权重矩阵和偏置项,\left [ {{h}_{i-1},mfcc\left ( {{t}_{i}} \right )} \right ]表示前一个隐藏状态和当前特征向量的连接;

29、s26、长短时记网络逐步处理整个特征序列,输出每个时间步的隐藏状态\left [ {{h}_{i-1},mfcc\left ( {{t}_{i}} \right )} \right ];

30、s27、将lstm网络的输出作为声学属性的综合表示,进行下一步的情感分析。

31、可选的,所述s3具体包括:

32、s31、接收s1中经过自动语音识别系统转换的文本序列,其中每个表示一个词或字;

33、s32、对该文本序列进行预处理,包括去除停用词、词性标注和语义消歧;

34、s33、将预处理后的文本序列输入到transformer模型中,该模型首先将每个词转换为高维词嵌入向量,通过词嵌入层实现,捕获每个词的语义特征;

35、s34、通过在transformer模型中应用自注意力机制来处理每个词嵌入向量,捕获词与词之间的关系和依赖,为每个词嵌入向量生成三个不同的向量:查询向量,键向量,值向量,,向量通过不同的线性变换从原始的词嵌入向量生成:

36、;

37、;

38、;

39、其中,表示第个词的高维词嵌入向量,,,表示将词嵌入向量转换为对应的查询、键、值向量,,,分别表示查询、键、值的偏置项;对于给定的词,通过其注意力得分是通过计算其查询向量与序列中所有其他词的键向量的点积,通过缩放因子进行规范化:

40、;

41、其中,表示第个词的查询向量,表示整个文本序列中所有词的键向量的集合,表示整个文本序列中所有词的值向量的集合,表示键向量的维度,一个标准化函数,表示给定查询向量对应的自注意力得分,决定在处理第个词时,序列中其他词的信息的重要程度;

42、s35、通过自注意力层处理的输出通过一系列编码器层进行进一步处理,每个编码器层包含自注意力子层和前馈神经网络,前馈神经网络对自注意力子层的输出进行非线性转换;

43、s36、transformer模型的最终输出表示文本序列中每个词的综合语义表示,包含了语义信息和词间关系;

44、s37、将transformer模型的输出用于后续的语音情感分析,其中每个输出用于评估对应词或字的情感倾向和强度。

45、可选的,所述s4具体包括:

46、s41、获取长短时记忆网络的输出和获取trs1nsforms5r模型的输出;

47、s42、将这两组输出合并成一个融合特征集,进行融合操作:

48、;

49、其中,是一个融合函数,表示将声学特性和语义信息结合成一个统一的特征表示;

50、s43、将融合后的特征集输入到卷积神经网络中,卷积操作:

51、;

52、其中,是第个卷积层的输出,是第个卷积层的权重矩阵,是偏置项,表示卷积操作,是激活函数;

53、s45、对s43的卷积层进行池化操作;

54、s46、经过多个卷积和池化层的处理后,卷积神经网络的输出表示了融合了声学特性和语义信息的高层次特征。

55、可选的,所述s43具体包括:

56、s431、声学特性的表示通过一个映射矩阵转换,和语义信息的表示空间对齐,转换后的声学特性表示为:

57、;

58、其中,是声学特性到共同特征空间的映射矩阵,表示将所有声学特性的隐藏状态串联成一个向量;

59、s432、语义信息的表示通过相应的映射矩阵转换,转换后的语义信息表示为:

60、;

61、其中,是语义信息到共同特征空间的映射矩阵,表示将所有语义信息的表示串联成一个向量;

62、s433、转换后的声学特性和语义信息通过加权求和融合,融合特征集的计算:

63、;

64、其中,和表示声学特性和语义信息在融合特征集中的重要程度。

65、可选的,所述s5具体包括:

66、s51、接收来自s4的卷积神经网络的输出,其中每个表示一个经过处理的特征图;

67、s52、将特征图通过一个高级特征提取层进行进一步分析:

68、将所有卷积神经网络输出的特征图平整化成一个一维向量,输入卷积神经网络输出的特征图平整化成一个一维向量到一个由多个全连接层构成的网络中,每个层通过权重矩阵、偏置项和激活函数对特征进行转换和非线性处理:

69、;

70、其中,表示第层全连接网络的输出特征,表示第层全连接网络的权重矩阵,表示平整化后的特征向量,表示第层全连接网络的偏置项,表示用于引入非线性的激活函数;

71、经过多层全连接网络处理后,最终得到的输出代表深层次提取的高级特征;

72、s53、将提取的高级特征输入到一个或多个分类器中,进行情感倾向的分类,分类器通过训练学习从特征中识别不同的情感类别,分类器的输出计算公式为:

73、;

74、其中,表示分类器的输出,即对不同情感类别的概率分布,表示分类器的权重矩阵,表示从全连接网络中提取的高级特征,表示分类器的偏置项,是一个激活函数,用于将分类器输出转换为概率分布;

75、s54、根据分类器的输出,确定语音中的情感倾向和强度。

76、可选的,所述s6具体包括:

77、s61、接收来自s5的分类器输出,其中表示情感分类的概率分布,每个元素对应于一种特定情感类别的概率;

78、s62、选择具有最高概率值的情感类别作为最终的情感倾向,情感倾向的确定方法表示为:

79、;

80、其中,表示确定的情感倾向,表示找出向量中最大值所对应的索引,该索引对应于情感类别;

81、s63、通过分析概率分布中最高概率值的大小来实现计算情感强度,情感强度的计算公式表示为:

82、;

83、其中,表示向量中的最大值,即最可能的情感类别的概率,它反映了模型对于该情感倾向的确定程度;

84、s64、格式化最终输出情感倾向和情感强度。

85、本发明的有益效果是:

86、本发明在中文语音情感分析领域实现了重大创新,通过融合长短时记忆网络、卷积神经网络和transformer模型,有效结合了语音的声学特征和文本的语义信息。这种综合方法显著提升了对复杂语境的处理能力,尤其在处理含有双关语、讽刺或隐喻等复杂情感表达的语音时,展现出更高的准确性和适应性。与传统依赖单一类型信息的情感分析方法相比,本发明在保持高准确度的同时,还降低了对数据质量的依赖,增强了模型对不同质量数据的鲁棒性。此外,通过优化深度学习模型结构,本发明能够高效处理大量语音数据,满足快速处理需求,适用于大规模数据分析场景。总而言之,本发明不仅大幅提升了中文语音情感分析的准确性和效率,还为自动化和智能化的语音情感分析领域提供了坚实的技术基础,展现出广阔的应用前景和实际价值。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24594.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。