技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于SIFT的RNN语音降噪与去混响方法及系统与流程  >  正文

一种基于SIFT的RNN语音降噪与去混响方法及系统与流程

  • 国知局
  • 2024-06-21 11:30:10

本发明涉及语音增强,尤其涉及一种基于sift的rnn语音降噪与去混响方法及系统。

背景技术:

1、在语音信号处理领域,降噪和去混响技术是非常重要的研究方向之一。在语音识别、说话人识别和音频处理等任务中,需要使用有效的降噪和去混响方法,以提高信号的信噪比和可懂性。目前常见的方法如谱减法(spectral subtraction)、小波变换降噪、双门限能量提取(double-threshold energy extraction)、基于盲源分离的混响消除等已经逐渐成为主流方法,并被广泛应用于实际生产中。

2、尽管现有的降噪和去混响技术已经能够取得一定效果,但是仍然面临着许多技术挑战和难点。例如,语音信号自身的时变性、非线性特性和多样性都会对降噪和去混响算法的精度和鲁棒性产生影响,且处理速度并不理想。因此,如何优化算法的复杂度和精度、提高其稳定性和可靠性,是本领域亟待解决的问题。

技术实现思路

1、为了解决上述提出的至少一个技术问题,本发明提供一种基于sift的rnn语音降噪与去混响方法及系统,能够增强语音降噪与去混响效果,降低算法的复杂度以提高语音处理的速度。

2、第一方面,本发明提供了一种基于sift的rnn语音降噪与去混响方法,所述方法包括:

3、提取原始语音的sift特征;

4、将所述sift特征输入至预设的rnn模型,根据rnn模型的输出数据进行信号重构,生成目标语音。

5、在一种可能实现的方式中,在所述提取原始语音的sift特征之前,还包括:

6、对所述原始语音进行fir数字滤波,并进行混响卷积运算。

7、在一种可能实现的方式中,在所述提取原始语音的sift特征之前,还包括对所述原始语音进行频谱变换,包括:对所述原始语音的语音信号进行预加重,提高所述语音信号在高频部分的信噪比;

8、对预加重后的语音信号进行分帧加窗,并进行短时傅里叶变换,生成所述语音信号从时域到频域的转换信号;

9、对所述转换信号进行旋转和映射,生成频谱图像。

10、在一种可能实现的方式中,所述提取原始语音的sift特征,包括:

11、对所述频谱图像进行尺度空间极值检测,识别具有尺度和方向不变性的潜在感兴趣区;

12、通过高斯差分金字塔提取所述潜在感兴趣区中不同尺度下的局部极值点,作为sift算法的关键点;

13、对所述关键点进行方向赋值,计算关键点的梯度方向,将所述关键点分配至对应的梯度方向直方图中;

14、以所述关键点为中心构建4×4的窗口,计算窗口内每个像素点的梯度幅值和方向,确定关键点的128维sift特征向量。

15、在一种可能实现的方式中,所述预设的rnn模型包括频-时调制谱感受区提取模块;

16、所述频-时调制谱感受区提取模块包括双向lstm网络与单向lstm网络;

17、所述双向lstm网络用于接收输入层的输入数据,对所述输入数据进行第一次特征学习,并将学习结果传输给lstm单元;

18、所述单向lstm网络对所述学习结果进行第二次特征学习,提取频-时感兴趣区。

19、在一种可能实现的方式中,所述双向lstm网络包括双向lstm层、第一全连接层和层归一化层;

20、所述双向lstm层包括一个正向lstm层和一个反向lstm层,分别用于从输入层的输入数据序列的不同方向开始进行特征学习;

21、所述第一全连接层用于将双向lstm层输出的非线性特征映射到新的特征空间;

22、所述层归一化层用于对所述第一全连接层的输出数据进行归一化处理。

23、在一种可能实现的方式中,所述单向lstm网络包括第一lstm层、第二全连接层和relu激活层;

24、所述第一lstm层用于对所述层归一化层的输出数据进行特征学习;

25、所述第二全连接层用于将所述第一lstm层输出的非线性特征映射到新的特征空间;

26、所述relu激活层用于在所述第二全连接层的输出数据中引入非线性特征。

27、在一种可能实现的方式中,所述预设的rnn模型还包括窄带滤波网络模块;

28、所述窄带滤波网络模块包括第二lstm层、第三全连接层和输出层;

29、所述第二lstm层用于对所述relu激活层的输出数据提取掩码特征;

30、所述第三全连接层用于将所述第二lstm层输出的非线性特征映射到新的特征空间;

31、所述输出层连接所述第三全连接层的输出端,用于输出掩码数据。

32、在一种可能实现的方式中,所述根据rnn模型的输出数据进行信号重构,生成目标语音,包括:

33、基于所述rnn模型的输出数据,计算信号增益;

34、对所述信号增益进行逆傅里叶变换、加窗和信号重构,生成目标语音。

35、第二方面,本发明还提供一种基于sift的rnn语音降噪与去混响系统,所述系统包括:

36、特征提取单元,用于提取原始语音的sift特征;

37、信号重构单元,用于将所述sift特征输入至预设的rnn模型,根据rnn模型的输出数据进行信号重构,生成目标语音。

38、与现有技术相比,本发明的有益效果在于:

39、本发明公开了一种基于sift的rnn语音降噪与去混响方法及系统,所述方法包括:提取原始语音的sift特征;将所述sift特征输入至预设的rnn模型,根据rnn模型的输出数据进行信号重构,生成目标语音。本发明通过将sift特征与rnn网络模型结合,能够提高语音处理的速度,增强语音降噪和去混响的处理效果,同时能够在保证实时性的同时对于设备内存的需求较低,节约了运算成本。

40、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。

技术特征:

1.一种基于sift的rnn语音降噪与去混响方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于sift的rnn语音降噪与去混响方法,其特征在于,在所述提取原始语音的sift特征之前,还包括:

3.根据权利要求1所述的基于sift的rnn语音降噪与去混响方法,其特征在于,在所述提取原始语音的sift特征之前,还包括对所述原始语音进行频谱变换,包括:

4.根据权利要求3所述的基于sift的rnn语音降噪与去混响方法,其特征在于,所述提取原始语音的sift特征,包括:

5.根据权利要求1所述的基于sift的rnn语音降噪与去混响方法,其特征在于,所述预设的rnn模型包括频-时调制谱感受区提取模块;

6.根据权利要求5所述的基于sift的rnn语音降噪与去混响方法,其特征在于,所述双向lstm网络包括双向lstm层、第一全连接层和层归一化层;

7.根据权利要求6所述的基于sift的rnn语音降噪与去混响方法,其特征在于,所述单向lstm网络包括第一lstm层、第二全连接层和relu激活层;

8.根据权利要求7所述的基于sift的rnn语音降噪与去混响方法,其特征在于,所述预设的rnn模型还包括窄带滤波网络模块;

9.根据权利要求1所述的基于sift的rnn语音降噪与去混响方法,其特征在于,所述根据rnn模型的输出数据进行信号重构,生成目标语音,包括:

10.一种基于sift的rnn语音降噪与去混响系统,其特征在于,所述系统包括:

技术总结本发明公开了一种基于SIFT的RNN语音降噪与去混响方法及系统,所述方法包括:提取原始语音的SIFT特征;将所述SIFT特征输入至预设的RNN模型,根据RNN模型的输出数据进行信号重构,生成目标语音。本发明通过将SIFT特征与RNN网络模型结合,能够提高语音处理的速度,增强语音降噪和去混响的处理效果,同时能够在保证实时性的同时对于设备内存的需求较低,节约了运算成本。技术研发人员:韦伟才,邓海蛟,马健莹,潘晖受保护的技术使用者:深圳市龙芯威半导体科技有限公司技术研发日:技术公布日:2024/2/25

本文地址:https://www.jishuxx.com/zhuanli/20240618/21902.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。