技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于Transformer的语音降噪方法及系统与流程  >  正文

一种基于Transformer的语音降噪方法及系统与流程

  • 国知局
  • 2024-06-21 10:38:59

本发明属于语音降噪处理,具体涉及一种基于transformer的语音降噪方法及系统。

背景技术:

1、现目前,语音降噪技术是指消除语音信号中受到的各种干扰和噪声,使其能被更加清晰、自然地传输和识别的一种技术。在实际应用中,语音信号常常会受到环境噪声、录音设备本身产生的噪声、压缩失真等影响,降噪技术可以有效地提高语音信号的质量和可懂度。目前,常见的语音降噪技术主要包括了基于频域分析的方法、基于时域滤波的方法、基于深度学习的方法等。

2、其中,基于频域分析的方法将语音信号转换为频谱,通过滤波器、峰值平均等处理方式,过滤掉频谱图上的噪声区域,从而得到更清晰的语音信号。基于时域滤波的方法则主要利用滤波器对原始语音信号进行去噪处理,如常用的wiener滤波、kalman滤波等。这些传统的降噪方法针对特定类型的噪声效果较好,但对于复杂多变的噪声环境下的语音降噪问题并不理想。

3、因此,针对以上的技术问题缺陷,急需设计和开发一种基于transformer的语音降噪方法、系统、平台及存储介质。

技术实现思路

1、为克服上述现有技术存在的不足及困难,本发明之目的在于,针对复杂环境下进行语音降噪的挑战,为了充分利用transformer在处理序列数据上强大的能力,结合卷积神经网络在特征提取上的优势,而提供一种基于transformer的语音降噪方法、系统、平台及存储介质,以实现对噪声更为有效的抑制。

2、本发明的第一目的在于提供一种基于transformer的语音降噪方法;本发明的第二目的在于提供一种基于transformer的语音降噪系统;本发明的第三目的在于提供一种基于transformer的语音降噪平台;本发明的第四目的在于提供一种计算机可读取存储介质。

3、本发明的第一目的是这样实现的:所述方法包括如下步骤:

4、实时获取及预处理与待降噪语音数据相应的原始数据,并卷积处理所述原始数据,生成与待降噪语音数据相应的第一处理数据;其中,原始数据包括纯净语音数据和噪声语音数据;

5、根据所述第一处理数据,结合卷积神经网络,提取与待降噪语音数据相应的特征数据;

6、构建transformer网络层,结合所述transformer网络层,生成与待降噪语音数据相应的循环神经网络数据;

7、根据所述循环神经网络数据,变换并重构与待降噪语音数据相应的语音信号,生成降噪处理后的语音数据。

8、进一步地,所述实时获取及预处理与待降噪语音数据相应的原始数据,并卷积处理所述原始数据,生成与待降噪语音数据相应的第一处理数据,还包括:

9、根据所述原始数据,于信噪比范围内进行第一次取值处理,并生成与所述第一次取值处理相应的第一取值数据;其中,所述信噪比范围为-20db~20db;

10、于所述第一取值数据中,实时进行第二次取值处理,并生成与所述第二次取值处理相应的第二取值数据;

11、根据所述第二取值数据,生成与模型相应的原始输入数据。

12、进一步地,所述实时获取及预处理与待降噪语音数据相应的原始数据,并卷积处理所述原始数据,生成与待降噪语音数据相应的第一处理数据,还包括:

13、通过数字滤波,预处理与待降噪语音数据相应的纯净语音数据;

14、结合开源脉冲语音数据,卷积计算处理所述纯净语音数据,生成与纯净语音数据相应的混响数据。

15、进一步地,所述根据所述第一处理数据,结合卷积神经网络,提取与待降噪语音数据相应的特征数据,还包括:

16、对与待降噪语音数据相应的原始数据进行时域处理,并转换生成与时域相应的频域;

17、根据帧的大或小,分别对虚部与实部进行形状变换及拼接处理,并生成相应的卷积神经网络输入数据。

18、进一步地,所述构建transformer网络层,结合所述transformer网络层,生成与待降噪语音数据相应的循环神经网络数据,还包括:

19、计算并生成与transformer网络相应的损失函数;

20、根据所述损失函数,并结合梯度下降更新处理与transformer网络相应的权重矩阵,生成优化后的循环神经网络数据。

21、进一步地,所述根据所述损失函数,并结合梯度下降更新处理与transformer网络相应的权重矩阵,生成优化后的循环神经网络数据,还包括:

22、根据损失函数值和自注意力机制层的初始化情况,生成与自注意力机制相应的权重矩阵梯度数据;

23、结合多次迭代训练,判定循环神经网络数据是否满足预设条件值。

24、本发明的第二目的是这样实现的:所述系统包括:

25、数据获取预处理单元,用于实时获取及预处理与待降噪语音数据相应的原始数据,并卷积处理所述原始数据,生成与待降噪语音数据相应的第一处理数据;其中,原始数据包括纯净语音数据和噪声语音数据;

26、特征数据提取单元,用于根据所述第一处理数据,结合卷积神经网络,提取与待降噪语音数据相应的特征数据;

27、第一生成单元,用于构建transformer网络层,结合所述transformer网络层,生成与待降噪语音数据相应的循环神经网络数据;

28、第二生成单元,用于根据所述循环神经网络数据,变换并重构与待降噪语音数据相应的语音信号,生成降噪处理后的语音数据。

29、进一步地,所述数据获取预处理单元,还包括:

30、第一生成模块,用于根据所述原始数据,于信噪比范围内进行第一次取值处理,并生成与所述第一次取值处理相应的第一取值数据;其中,所述信噪比范围为-20db~20db;

31、第二生成模块,用于所述第一取值数据中,实时进行第二次取值处理,并生成与所述第二次取值处理相应的第二取值数据;

32、第三生成模块,用于根据所述第二取值数据,生成与模型相应的原始输入数据;

33、和/或,所述数据获取预处理单元,还包括:

34、预处理模块,用于通过数字滤波,预处理与待降噪语音数据相应的纯净语音数据;

35、第四生成模块,用于结合开源脉冲语音数据,卷积计算处理所述纯净语音数据,生成与纯净语音数据相应的混响数据;

36、和/或,特征数据提取单元,还包括:

37、第五生成模块,用于对与待降噪语音数据相应的原始数据进行时域处理,并转换生成与时域相应的频域;

38、第六生成模块,用于根据帧的大或小,分别对虚部与实部进行形状变换及拼接处理,并生成相应的卷积神经网络输入数据;

39、和/或,所述第一生成单元,还包括:

40、第七生成模块,用于计算并生成与transformer网络相应的损失函数;

41、第八生成模块,用于根据所述损失函数,并结合梯度下降更新处理与transformer网络相应的权重矩阵,生成优化后的循环神经网络数据;

42、和/或,所述第八生成模块,还包括:

43、第九生成模块,用于根据损失函数值和自注意力机制层的初始化情况,生成与自注意力机制相应的权重矩阵梯度数据;

44、数据判定模块,用于结合多次迭代训练,判定循环神经网络数据是否满足预设条件值。

45、本发明的第三目的是这样实现的:包括处理器、存储器以及基于transformer的语音降噪平台控制程序;其中在所述的处理器执行所述的基于transformer的语音降噪平台控制程序,所述的基于transformer的语音降噪平台控制程序被存储在所述存储器中,所述的基于transformer的语音降噪平台控制程序,实现所述的基于transformer的语音降噪方法。

46、本发明的第四目的是这样实现的:所述计算机可读取存储介质存储有基于transformer的语音降噪平台控制程序,所述的基于transformer的语音降噪平台控制程序,实现所述的基于transformer的语音降噪方法。

47、本发明通过方法实时获取及预处理与待降噪语音数据相应的原始数据,并卷积处理所述原始数据,生成与待降噪语音数据相应的第一处理数据;其中,原始数据包括纯净语音数据和噪声语音数据;根据所述第一处理数据,结合卷积神经网络,提取与待降噪语音数据相应的特征数据;构建transformer网络层,结合所述transformer网络层,生成与待降噪语音数据相应的循环神经网络数据;根据所述循环神经网络数据,变换并重构与待降噪语音数据相应的语音信号,生成降噪处理后的语音数据,以及与方法相应的系统、平台及存储介质,可以对噪声更为有效的抑制。

48、也就是说,通过设计的transformer网络模型的损失函数与输入输出设计,能够对输入数据进行有效的学习,通过使用纯深度学习的方式,能够充分提高模型的泛化能力,对于复杂场景下的语音也能起到很好的降噪效果,并且通过缩减模型参数等方式也能进行实时降噪。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20925.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。