音频修复方法、装置、程序、介质和设备与流程
- 国知局
- 2024-06-21 11:52:18
本公开涉及音频处理,尤其涉及一种音频修复方法、音频修复装置、计算机程序产品、计算机可读存储介质和电子设备。
背景技术:
1、本领域中存在通过两阶段模型用于音频修复的技术方案。现有的两阶段模型的音频修复效果仍然不能满足要求,因为音频修复面临多种类型的噪声和失真,并且不同频带上的失真效果可能不一样,现有的两阶段模型难以覆盖如此多类型的音频质量问题。因此,本领域亟需一种能够针对复杂多样的音频失真问题进行修复的音频修复模型。。
技术实现思路
1、为此,本公开提供一种音频修复方法、音频修复装置、计算机程序产品、计算机可读存储介质和电子设备,其能够针对复杂多样的音频失真问题进行修复。
2、在一方面,本公开提供一种音频修复方法,包括:将受损音频输入第一阶段模型,得到复数谱;将复数谱输入第二阶段模型,得到修复音频。其中,第一阶段模型包括:编码器,用于对复数谱进行下采样;解码器,用于对复数谱进行上采样。其中,第二阶段模型包括:全带模块,用于在全部频带上对复数谱进行建模;子带模块,用于在多个子频带上对复数谱进行建模。
3、在本公开一特别实施例中,第一阶段模型还包括:短时傅里叶变换模块,用于通过短时傅里叶变换将受损音频转变成复数谱;时序建模模块,用于在时间维度上进一步提取复数谱的特征。
4、在本公开一特别实施例中,编码器包括多个堆叠的下采样模块,下采样模块包括:二维门控卷积模块,用于对复数谱进行门控卷积;时频卷积模块,用于对复数谱在时间维度和频率维度上进行卷积;轴向自注意力模块,用于对复数谱进行注意力机制的计算。其中,解码器包括多个堆叠的上采样模块,上采样模块包括:二维门控转置卷积模块,用于对复数谱进行门控转置卷积;时频卷积模块,用于对复数谱在时间维度和频率维度上进行卷积;轴向自注意力模块,用于对复数谱进行注意力机制的计算。
5、在本公开一特别实施例中,第二阶段模型还包括:复数特征编码器,用于提取复数谱中的高维特征;复数特征解码器,用于将复数谱中的高维特征还原到低维。
6、在本公开一特别实施例中,在将受损音频输入第一阶段模型,得到复数谱之前,方法还包括:采用生成式对抗网络的训练方式训练第一阶段模型;在特定的音频修复任务上训练第二阶段模型;采用生成式对抗网络的训练方式训练级联后的第一阶段模型和第二阶段模型;对多个输入音频中对应的用于衡量修复效果的损失函数的值在训练结束后仍然高于阈值的输入音频进行仿真,生成多个仿真音频,并通过多个仿真音频训练级联后的第一阶段模型和第二阶段模型。
7、在本公开一特别实施例中,采用生成式对抗网络的训练方式训练第一阶段模型,包括:将第一阶段模型作为生成式对抗网络的生成器,将第一判别器作为生成式对抗网络的判别器,从而采用生成式对抗网络的训练方式训练第一阶段模型;其中,第一判别器包括多个第一子判别器,第一子判别器包括多个堆叠的二维卷积模块,二维卷积模块用于对输入音频的幅度谱进行卷积。
8、在本公开一特别实施例中,采用生成式对抗网络的训练方式训练第一阶段模型,包括:将第一阶段模型作为生成式对抗网络的生成器,将第二判别器作为生成式对抗网络的判别器,从而采用生成式对抗网络的训练方式训练第一阶段模型。其中,第二判别器包括多个第二子判别器,第二子判别器包括多个并联的子带判别器模块,不同的子带判别器模块用于对输入音频被划分成的不同频带的复数谱进行判别,子带判别器模块包括多个堆叠的二维卷积模块,二维卷积模块用于对复数谱进行卷积。
9、在另一方面,本公开提供一种音频修复装置,装置包括:第一阶段模块,用于将受损音频输入第一阶段模型,得到复数谱;第二阶段模块,用于将复数谱输入第二阶段模型,得到修复音频。其中,第一阶段模型包括:编码器,用于对受损音频转变成的复数谱进行下采样;解码器,用于对复数谱进行上采样。其中,第二阶段模型包括:全带模块,用于在全部频带上对复数谱进行建模;子带模块,用于在多个子频带上对复数谱进行建模。
10、在本公开一特别实施例中,第一阶段模型还包括:短时傅里叶变换模块,用于通过短时傅里叶变换将受损音频转变成复数谱;时序建模模块,用于在时间维度上进一步提取复数谱的特征。
11、在本公开一特别实施例中,编码器包括多个堆叠的下采样模块,下采样模块包括:二维门控卷积模块,用于对复数谱进行门控卷积;时频卷积模块,用于对复数谱在时间维度和频率维度上进行卷积;轴向自注意力模块,用于对复数谱进行注意力机制的计算。其中,解码器包括多个堆叠的上采样模块,上采样模块包括:二维门控转置卷积模块,用于对复数谱进行门控转置卷积;时频卷积模块,用于对复数谱在时间维度和频率维度上进行卷积;轴向自注意力模块,用于对复数谱进行注意力机制的计算。
12、在本公开一特别实施例中,第二阶段模型还包括:复数特征编码器,用于提取复数谱中的高维特征;复数特征解码器,用于将复数谱中的高维特征还原到低维。
13、在本公开一特别实施例中,装置被进一步配置成:采用生成式对抗网络的训练方式训练第一阶段模型;在特定的音频修复任务上训练第二阶段模型;采用生成式对抗网络的训练方式训练级联后的第一阶段模型和第二阶段模型;对多个输入音频中对应的用于衡量修复效果的损失函数的值在训练结束后仍然高于阈值的输入音频进行仿真,生成多个仿真音频,并通过多个仿真音频训练级联后的第一阶段模型和第二阶段模型。
14、在本公开一特别实施例中,装置被进一步配置成:将第一阶段模型作为生成式对抗网络的生成器,将第一判别器作为生成式对抗网络的判别器,从而采用生成式对抗网络的训练方式训练第一阶段模型。其中,第一判别器包括多个第一子判别器,第一子判别器包括多个堆叠的二维卷积模块,二维卷积模块用于对输入音频的幅度谱进行卷积。
15、在本公开一特别实施例中,装置被进一步配置成:将第一阶段模型作为生成式对抗网络的生成器,将第二判别器作为生成式对抗网络的判别器,从而采用生成式对抗网络的训练方式训练第一阶段模型。其中,第二判别器包括多个第二子判别器,第二子判别器包括多个并联的子带判别器模块,不同的子带判别器模块用于对输入音频被划分成的不同频带的复数谱进行判别,子带判别器模块包括多个堆叠的二维卷积模块,二维卷积模块用于对复数谱进行卷积。
16、在另一方面,本公开提供一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现上述的音频修复方法。
17、在另一方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令上述计算机执行上述的音频修复方法。
18、在另一方面,本公开提供一种电子设备,包括存储器和处理器,上述存储器中存储有可执行代码,上述处理器执行上述可执行代码时,实现上述的音频修复方法。
19、根据本公开,通过在第一阶段模型中设置编码器和解码器,有利于提取受损音频中的高维特征,以便对各种音频失真问题进行修复。另外,通过在第二阶段模型中设置全带模块和子带模块,有利于在所有频带上修复受损音频,使所有频带上的音频失真问题都能得到处理和修复。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24138.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表