技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于频域自注意力网络的语音质量增强方法及系统 > 正文

一种基于频域自注意力网络的语音质量增强方法及系统

国知局
2024-06-21 11:36:52

本发明属于语音质量处理，涉及一种语音质量增强方法及系统，尤其涉及一种基于频域自注意力网络的语音质量增强方法及系统。

背景技术：

1、20世纪60年代中期数字信号处理领域形成的诸多富有实践性的理论和算法,如快速傅立叶变换(fft）以及各种数字滤波器等是语音信号数字处理的各项理论和技术基础。在70年中后期之后，线性预测技术（lpc)已经用于语音信号的信息压缩和特征提取，并已成为语音信号处理中非常重要的一个工具。80年代语音信号处理技术的重大发展是隐马尔可夫模型（hmm）描述语音信号过程的产生过程。进入上世纪90年代以来，语音信号采集与分析技术在实际应用方面取得了许多突破性的研究进展。

2、在商业、教育和医疗保健等需要远程工作领域，对电话会议系统有着较大的需求。因此电话会议系统的语音质量十分关键。因此能否极大程度去除噪声对语音质量提升有着决定性作用。在全双工通信中，当回声干扰双端通话（dt）场景时，这些问题变得更具挑战性。因此，能够解决声学回声、噪声和去混响的解决方案对于实现无缝通信至关重要。

3、近年来，随着科学技术的不断进步，人工神经网络(ann)的研究取得了迅速发展，语音信号处理的各项科学研究课题是促进其发展的催生力，同时，它的许多成果也体现在有关语音信号处理的各项技术之中。近年来，人们已经开发了联合aec和ns方法以简化通信流水线，同时提供良好的aec和ns性能。例如，mtfaa-net是一种用于联合aec和ns的神经网络，基于多尺度时频处理和流轴向注意力。然而mtfaa-net仍然依赖于经典的aec组件。

4、然而，目前基于深度学习的方法对语音噪声的数学建模仍然不够完善。同时由于对语音通信来说，实时降噪能力也十分重要，因此想要提高用户语音通信体验的享受度，需要减少算法时间的复杂度以提高实时去噪效果。

技术实现思路

1、为了解决现有技术语音质量增强方法出现的实时性低问题，本发明提出了一种基于频域自注意力网络的语音质量增强方法及系统，可以应用于商业、军事等领域语音质量的增强。

2、本发明的方法所采用的技术方案是：一种基于频域自注意力网络的语音质量增强方法，包括以下步骤：

3、步骤s1，输入原始语音并进行预处理，获得语音数据的频率响应；

4、步骤s2，将处理后频率响应输入频域自注意力网络，得到语音质量增强后的频率响应；

5、所述频域自注意力网络，包括位置编码模块、n个相同的基本单元模块；

6、所述位置编码模块包括位置编码层，用于将位置信息添加到处理后的频率响应中；所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层；

7、步骤s3，对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。

8、进一步的，步骤s1中，对输入的原始语音进行预处理，包括傅里叶变换、归一化和升维操作，所述傅里叶变换是利用快速傅里叶变换函数获得输入语音数据的频率响应，包括幅度响应特性和相位响应特性，所述归一化是利用最大最小值将幅度响应特性和相位响应特性进行归一化，并将相位响应特性尺度变换为0到2π的长度区间，所述升维操作是将本为一维序列的频域信号裁剪为若干个一定长度的序列，并将这些序列按列堆叠成二维矩阵。

9、进一步的，步骤s2中，所述位置编码模块中的位置编码函数为：

10、

11、

12、其中，表示位置编码,表示单词在句子中的位置，表示的维度，表示偶数的维度，表示奇数维度。

13、进一步的，步骤s2中，将位置编码后的频率响应输入若干个并列的注意力头组成的多注意力头层，其中每个注意力头由三个可进行参数优化的权重矩阵、、组成，用于获得查询q、键值k、值v，具体计算公式为：

14、

15、

16、

17、得到矩阵q、k、v之后计算出多注意力头层的输出，具体公式如下：

18、

19、其中，是矩阵的列数，即向量维数，为转置运算，为归一化函数；

20、将多注意力头层的输出和位置编码后的频率响应输入到残差连接层，用于解决多层网络训练的问题，然后将残差连接层的输出进行层归一化，层归一化的结果输入到前馈层中，使最终输出矩阵维度与输入维度一致，最后再将前馈层的结果进行残差连接和层归一化，得到最终的频率响应。

21、进一步的，归一化函数的计算公式为：

22、

23、其中，为求向量的最大值；

24、残差连接层由2个卷积层组成，具体公式如下：

25、

26、其中，为残差连接层的输出，为残差连接层中第2个卷积层的输出，'为残差连接层的输入；

27、前馈层包括两层全连接层，第一层使用relu激活函数，第二层不使用激活函数，具体公式如下：

28、

29、其中是输入，和分别为两个全连接层参数，和分别为两个全连接层偏置。

30、进一步的，步骤s2中，所述频域自注意力网络是训练好的频域自注意力网络；训练过程包括以下子步骤：

31、步骤ss1，使用含原始语音和干净语音的voicebank数据集；

32、步骤ss2，对数据集进行预处理，将预处理后的数据集输入到频域自注意力网络中进行训练，通过反向传播算法不断优化模型参数，使其能够达到较好的语音增强效果。

33、进一步的，步骤ss2中，所述预处理包括傅里叶变换、归一化和升维操作；首先对输入的原始语音进行傅里叶变换获得频率响应；然后对频率响应进行归一化处理；最后对归一化后的频率响应进行升维操作获得计算矩阵；训练过程中采用均方误差损失函数，训练至网络收敛，即训练损失函数曲线保持平稳不再下降。

34、进一步的，步骤s3中，所述后处理包括取正值、降维操作、傅里叶逆变换，所述取正值是将网络输出结果取正，所述降维操作，是指将取正后的结果按序拼接成一维的序列，从而得到语音质量增强后的一维频率响应，所述傅里叶逆变换，是利用逆快速傅里叶变换函数获得质量增强后的语音信号。

35、本发明还提供一种基于频域自注意力网络的语音质量增强系统，包括以下单元：

36、预处理单元，用于输入原始语音并进行预处理，获得语音数据的频率响应；

37、语音质量增强单元，用于将处理后频率响应输入频域自注意力网络，得到语音质量增强后的频率响应；

38、所述频域自注意力网络，包括位置编码模块、n个相同的基本单元模块；

39、所述位置编码模块包括位置编码层，用于将位置信息添加到处理后的频率响应中；所述基本单元模块包括多注意力头层、残差连接和层归一化层、前馈层；

40、后处理单元，用于对语音质量增强后的频率响应进行后处理得到最终的语音增强信号。

41、本发明采用频域自注意力网络实现对原始语音质量进行增强。该技术结合了频域分析和深度学习算法，首先利用快速傅里叶变换获取原始语音信号的频率响应，这些信号包含了有效语音信号和无效噪声的特征。然后对原始语音信号频率响应使用升维操作，使其成为二维矩阵以输入网络处理。然后使用频域自注意力网络模型对升维后的频率响应进行特征提取。最终对输出的信号进行降维操作，从而实现对语音信号中噪声的去除。与传统的语音质量增强方法相比，本发明具有稳定性、独立性、快速高效等优点，能够大大提高语音质量增强的准确形和效率，为商业、军事等领域语音通信方面提供有力的保障。