基于多尺度注意力的轻量级语音情感识别方法及系统
- 国知局
- 2024-06-21 11:36:55
本发明属于语音情感识别,涉及一种基于多尺度注意力的轻量级语音情感识别方法及系统。
背景技术:
1、语音情感识别(speech emotion recognition,ser),是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别和理解人类情感的能力。ser在人机交互中发挥重要作用,广泛应用于各种智能设备,特别是智能对话系统和语音助手,例如小爱同学和apple siri等。
2、最早的ser相关研究出现于20世纪80年代,使用声学统计特征进行情感分类。进入21世纪以来,计算机多媒体技术出现,人工智能领域快速发展,ser研究发展步伐随之加快,一系列相关领域的会议和竞赛出现并推动该领域发展。2000年,isca workshop on speechand emotion(言语与情感研讨会)会议第一次聚拢了情感和语音研究学者。2009年,关注情感计算的会刊ieee transactions on affective computing(情感计算汇刊)创刊。2013年,w3cemotion markup language(情感标记语言)出现,情感识别逐渐国际化。至今,几乎每年都会举行情感相关的竞赛和会议。
3、根据分类器的不同,ser技术大体可分为基于机器学习的方法和基于深度学习的方法。基于机器学习的方法依赖于从语音信号中提取的声学特征,将声学特征送入分类器进行情感识别。而基于深度学习的方法利用深度学习技术,将语音信号进行非线性转换,自动提取高级特征,或利用手工特征,送入深度神经网络,并进行情感识别。
4、作为模式识别的一种,ser是利用特征来送入分类器得到最终的情感模型。因此,为了使ser在复杂的声音环境中能够有效运行并完成指定任务,获取恰当的声学特征至关重要。
5、传统分类器包括隐马尔可夫模型(hidden markov machines,hmm)、支持向量机(support vector machines,svm)和高斯混合模型(gaussian mixture model,gmm)等。所使用的特征最初包括音高、能量、共振峰和持续时间等,随着技术发展,傅里叶参数模型、韵律特征、谱特征和音质特征也用于ser。广泛使用的特征有mel频率倒谱系数(melfrequency cepstral coefficients,mfcc)、线性预测倒谱系数(linear predictioncepstral coefficients,lpcc)。近年来,伽马酮频率倒谱系数(gammatone frequencycepstral coefficients,gfcc)在ser中的表现相比mfcc平均提高了3.6%的准确度。
6、现有的机器学习方法一般需要人工设计和选择特征,这不仅涉及到专家知识,还会耗费大量精力来收集、优化和选择有效特征。同时,使用数学模型仅从原始音频数据中提取人们认为有效的信息,可能造成情感信息的遗漏。
7、深度学习的方法因为端到端的处理模式,可以直接面向原始信号,通常可以捕获更完整的情感相关信息,同时,可以经过深层网络提取更高级的特征来用于情感识别。然而,目前针对ser的模型通常存在需要大量的计算和存储资源等问题,难以与嵌入式系统中的其他机器交互任务同时实现。
8、受移动设备高速发展的影响,深度学习方法中的轻量级ser的研究受到越来越多的关注。轻量级ser模型通常主要由卷积神经网络(convolutional neural network,cnn)堆叠组成,或者以cnn叠加少量的类rnn/transformer组成。cnn具有局部连接、权重共享以及汇聚的性质,使得它具有一定程度上的平移、缩放和旋转不变性。相比于前馈神经网络,cnn需要的参数更少,可提高运算速度。
9、但cnn重点关注局部特征信息,对特征图较远的点之间难以建立长程联系,失去了捕获全局信息的能力。对特征相差较大的情感状态,比如中立和生气,仅使用单一特征就可以取得较理想的效果。但是,对于相近的情感状态,它们之间的单一特征相近,仅用单一特征会使得情感识别效果较差。
10、因此,在轻量级ser任务中,找到一个能提取多尺度特征并捕获全局信息的模型结构具有重要意义。
技术实现思路
1、本发明的目的在于提供一种基于多尺度注意力的轻量级语音情感识别方法及系统,充分提取和利用多尺度特征信息,提高语音情感识别(ser)的效果。
2、为了达到上述目的,本发明的基础方案为:一种基于多尺度注意力的轻量级语音情感识别方法,包括如下步骤:
3、读取待识别的音频数据,将待识别的音频数据转换表示为时间,频率,通道的三维张量;
4、对三维张量进行浅层特征提取,获取四个浅层特征,所述浅层特征包括时间特征、频率特征、小尺度时频特征和大尺度时频特征;
5、对四个浅层特征进行特征融合;
6、对融合后的特征进行深层特征提取;
7、将深层特征输入softmax层,进行情感分类,得到情感识别结果。
8、本基础方案的工作原理和有益效果在于:本技术方案对原始音频数据进行前向传播,经过读取与转化,提取浅层特征,特征融合,深层特征提取,及情感分类操作,学习情感特征,最后分类得到情感识别结果。这样充分提取和利用多尺度特征信息,提高语音情感识别(ser)的效果。
9、进一步,音频数据读取和转换方法为:
10、将原始音频信号标准化到区间[-1,1],使用汉明窗将音频信号分割为具有16ms重叠的64ms帧,每一帧视为一个准平稳段。对每帧使用1024点快速傅里叶变换,获取有效的声音频谱。得到的语音信号在[80,7600]hz区间内进行梅尔标度滤波器组分析。最后使用逆离散余弦变换计算每帧的mel频率倒谱系数,每帧得到40个mel频率倒谱系数,来训练语音情感识别模型。
11、从原始音频文件中提取mfcc(mel频率倒谱系数),可以有效降低声音特征的维度,可以减少模型的复杂性,避免过拟合。
12、进一步,提取浅层特征的方法为:
13、使用不同形状的卷积神经网络cnn提取特征。
14、利用4个2d-cnn,以4个不同形状的滤波器,分别从4条路径并行提取特征,其中,以9×1的滤波器提取时间特征,以1×9的滤波器提取频率特征,以3×3的滤波器提取小范围时频特征,以5×5的滤波器提取大范围的时频特征;
15、卷积神经网络的每个卷积层同时将特征通道数从1扩展至32,卷积层后连接批量规范化层,进行标准化,再连接relu激活函数层。
16、在relu激活函数层后连接2×2平均池化层。
17、设计不同的滤波器各司其职,可以有效降低参数量,并有利于实现可分离架构。
18、进一步,在9×1滤波器的cnn后,利用时间挤压与激励模块tse捕捉时间维度全局信息,先对输入特征进行保留时间维度的全局平均池化,在频率和通道维度取平均值,将每个时间的特征图转化为一个标量,只保留时间维度:
19、
20、其中,x表示每个时间的输入特征图,c表示通道维度的长度,f表示频率维度的长度;global average pooling(x)为全局平均池化后的输出结果,i表示通道维度坐标,j表示频率维度坐标,xi,j表示通道维度坐标为i,频率维度坐标为j的输入特征图;
21、得到时间×1×1的特征图,经过一个线性层对时间维度压缩,引入时间维度的变化并降低参数量,使用relu函数进行激活,引入非线性变化,再经过一个线性层对时间维度还原,使用sigmoid函数激活,最后得到权重图,形状为时间×1×1;
22、权重图与原特征图相乘,得到嵌入全局信息的输出特征图tse(x):
23、tse(x)=x·sigmoid(w2·relu(w1·gap(x)))
24、其中,x为输入特征图,w为线性层参数,w1表示第一个线性层的参数,w2表示第二个线性层的参数;
25、在1×9滤波器的cnn后,添加频率维度的注意力模块fse,把tse中对时间维度的处理替换为对频率维度的处理,捕捉频率维度的全局信息;
26、在3×3滤波器的cnn后,添加空间注意力模块sam,捕获空间全局信息;先对输入特征进行保留通道维度的全局平均池化gap和全局最大池化gmp:
27、global max pooling(x)=maxk,jxk,j,i
28、其中,xk,j,i表示输入特征图x在时间频率位置(k,j)处通道i上的值;global maxpooling(x)为全局最大池化后的输出结果;maxk,j表示取时间频率位置(k,j)处的最大值;
29、对输出结果gap(x)和gmp(x)进行通道连接,得到形状为时间×频率×2的特征图;
30、特征图经过一个3×3滤波器的cnn处理,使用sigmoid函数激活,得到空间权重,最后将空间权重与特征图相乘,得到嵌入全局空间信息的输出特征图sam(x):
31、sam(x)=x·sigmoid(cnn(concatenate(gap(x),gmp(x))))
32、其中,gap(x)为对输入特征全局平均池化后的输出结果;gmp(x),即global maxpooling(x),为对输入特征全局最大池化后的输出结果;concatenate表示通道连接函数;
33、在5×5滤波器的cnn后,使用sam来建立全局特征表示,用5×5滤波器替换原本sam中的3×3滤波器,捕获更大尺度的相关性信息,得到嵌入大尺度全局空间信息的输出特征图。
34、本方案设计4个轻量型的注意力模块,用于在各个维度上建立全局依赖,提高网络性能。
35、进一步,所述特征融合的方法为:
36、模块获取浅层特征提取模块输出的四个浅层特征,对四个浅层特征按照时间、频率、小尺度时频和大尺度时频的顺序进行通道连接;
37、使用通道维度的注意力模块senet,把对时间维度的处理替换为对通道维度。
38、使用通道维度的注意力模块senet加强情感相关重要特征的权重,捕捉通道间相关性。
39、进一步,所述分类方法为;
40、将每个音频样本的长为320的特征向量送入softmax层,进行情感分类,得到多分类的条件概率,概率最大者即被识别的情感,输出情感识别结果。
41、操作简单,实现语音情感识别。
42、本发明还提供一种基于本发明所述方法的轻量级语音情感识别系统,包括依次连接的数据读取和转换模块、浅层特征提取模块、特征融合模块、深层特征提取模块和分类模块。
43、本系统控制原始音频文件经过数据读取和转换模块、浅层特征提取模块、特征融合模块、深层特征提取模块和分类模块的前向传播,学习情感特征,最后分类得到情感识别结果,参数量少,运算速度快,准确度高,并保证模型的轻量性。
44、进一步,所述浅层特征提取模块包括4个轻量型的注意力模块:时间注意力tse、频率注意力fse、小尺度空间注意力sam和大尺度空间注意力sam。
45、对不同维度的特征提取路径建立不同维度的轻量级注意力模块,分别使用时间注意力(tse)、频率注意力(fse)、小尺度空间注意力(sam)和大尺度空间注意力(sam)来捕获时间、频率和时频维度的全局信息,弥补cnn只能表示局部时频特征的缺点。
46、进一步,所述深层特征提取模块包括5个依次连接的卷积神经网络cnn,位于前端的4个cnn串行堆叠连接,且结构相同,包括卷积层、批量规范化层、relu激活函数层和池化层;
47、第一层cnn的滤波器数量为64,池化层为(2,2);
48、第二层cnn的滤波器数量为96,池化层为(2,2);
49、第三层cnn的滤波器数量为128,池化层为(2,1);
50、第四层cnn的滤波器数量为160,池化层为(2,1);
51、在这四层cnn选用3×3的滤波器,滤波器堆叠连接;
52、第五层使用320个1×1的滤波器,进行通道维度的变换,扩展通道维度,不再提取空间信息;
53、连接批量规范化层和relu激活函数层,最后进行全局平均池化,将每个样本的三维特征图转化为一维的通道向量;
54、引入dropout层,进行正则化,随机地删除一部分神经元;
55、输出深层特征。
56、通过5个依次连接的卷积神经网络cnn,引入更多非线性变换,获取更强的表示能力,捕捉更细粒度的情感特征。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22433.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表