一种解码器、音频离散化重建的系统、方法及存储介质与流程
- 国知局
- 2024-12-26 15:03:10
本发明涉及音频处理,特别是一种解码器、音频离散化重建的系统、方法及存储介质。
背景技术:
1、音频离散化重建是将连续音频特征序列映射到有限的离散代码空间,将连续音频特征序列转化为离散化特征(离散码),对连续音频特征序列进行表征和重建,以实现音频更有效的压缩、生成和传输。
2、目前音频离散化解决了音频模态与大语言模型的结合,复杂且冗长的音频无法直接输入大模型中进行学习,经过音频离散化压缩后,音频就能很好的与大模型结合,使能够直接理解和生成音频的端到端大模型真正落地。
3、现有技术中,音频离散化重建系统,主要包括编码器(encoder)、量化器(quantizer)和解码器(decoder)。
4、编码器(encoder)将高维的原始音频压缩到一个低维的特征空间,提取连续音频特征序列,通常采用卷积神经网络(cnn)或 transformer 模型。编码器(encoder)首先提取音频的特征信息,例如时频特征,提取的特征在传输到量化器(quantizer)之前是一个连续的潜在表示,即连续音频特征序列。
5、量化器(quantizer)是现有音频离散化重建系统的核心部分,将编码器(encoder)输出的连续音频特征序列离散化,通过查找最接近特征的离散代码向量(从代码表中选择),将连续音频特征序列映射到离散空间,生成离散化特征。
6、解码器(decoder),利用量化器(quantizer)得到的离散化特征进行音频重建。
7、现有音频离散化重建系统,通过编码器(encoder)、量化器(quantizer)和解码器(decoder)对音频压缩、离散化并重建。解码器(decoder)与编码器(encoder)一样,采用卷积神经网络(cnn)解码器、反卷积解码器或者基于自回归结构的解码器,将离散化特征作为输入,再现原始音频波形或频谱信息。
8、现有音频离散化重建系统,能够将连续音频特征序列映射到有限的离散代码空间,对连续音频特征序列进行表征和重建,但是目前的音频离散化重建系统还存在如下不足:
9、(1)编码器(encoder)和解码器(decoder)基本上遵从镜像对称结构。然而,音频的特征提取和重建,在参数上可能会有不同侧重点,编码器(encoder)和解码器(decoder)的对称结构无法同时满足特征提取和重建的需要,从而影响编码器的音频特征提取和解码器的音频重建效果。
10、例如,解码器(decoder)与编码器(encoder)的镜像对称结构,这种标准结构一般由于上采样的需求,会使用一系列时序上的操作,如空洞卷积(增加时序感受野)、转制卷积(也叫反卷积,用于上采样),增加感受野并逐步从特征上采样到波形,这样的结构很容易产生混叠效应,也就是在频域上不能完全进行足够的采样,造成较高的频率成分“折叠”到较低的频率范围,与实际的低频成分混淆,从而导致音频重建时出现失真和噪声,影响音频重建的质量。
11、(2)现有的解码器(decoder)与编码器(encoder)的镜像对称结构,解码器(decoder)不管是直接对音频重建,还是对特征谱图(如频谱图、梅尔谱图)的还原,利用离散化特征进行音频重建的精度都比较有限,且为了达到高压缩率的需求,音频重建的质量往往会受限于编码器(encoder)过高的下采样率和量化器(quantizer)有限的码本参数量,在音频重建时,重建的音频存在部分细节失真的问题,无法生成高保真音频。
技术实现思路
1、本发明提出了一种解码器、音频离散化重建的系统、方法及存储介质,以解决现有音频离散化重建,重建的音频存在部分细节失真的问题,无法生成高保真音频的技术问题。
2、本发明的一个方面在于提供一种用于音频离散化重建的解码器,所述解码器包括:cnn层,用于输入音频的离散化特征,并将所述离散化特征进行初步特征还原,生成还原特征;
3、stft预测层,用于对所述还原特征,在多个频域尺度下预测傅立叶谱系数;其中,预测的傅立叶谱系数包括幅度谱系数和相位谱系数;
4、利用预测的傅立叶谱系数,在多个频域尺度下对所述还原特征进行频谱恢复,生成所述还原特征在多个频域尺度下的stft频谱图;
5、istft层,用于将多个频域尺度下的所述stft频谱图进行逆短时傅里叶变换,将所述stft频谱图转换回时间域,生成多个完整的候选音频;
6、融合层,用于对多个所述候选音频进行融合,生成重建的音频。
7、在一个优选的实施例中,所述stft预测层包括堆叠的多个深度卷积层和多个逐点卷积层。
8、在一个优选的实施例中,所述stft预测层,对所述还原特征,在一个频域尺度下预测傅立叶谱系数;其中,预测的傅立叶谱系数包括幅度谱系数和相位谱系数;
9、利用预测的傅立叶谱系数,在一个频域尺度下对所述还原特征进行频谱恢复,生成所述还原特征在一个频域尺度下的stft频谱图。
10、在一个优选的实施例中,所述融合层采用加权平均、基于低频保留高频增强规则或者全连接层预测中的任一方式,对多个所述候选音频进行融合。
11、本发明的另一个方面在于提供一种音频离散化重建的系统,所述系统包括编码器、量化器,以及本发明提供的一种解码器。
12、在一个优选的实施例中,所述编码器,用于获取原始音频;
13、对所述原始音频下采样,提取原始音频的连续音频特征序列;
14、所述量化器,用于对提取的所述连续音频特征序列进行离散化,生成音频的离散化特征。
15、本发明的又一个方面在于提供一种音频离散化重建的方法,所述方法包括如下方法步骤:
16、s1、获取原始音频;
17、对所述原始音频下采样,提取原始音频的连续音频特征序列;
18、s2、对提取的所述连续音频特征序列进行离散化,生成音频的离散化特征;
19、s3、将所述离散化特征进行初步特征还原,生成还原特征;
20、s4、对所述还原特征,在多个频域尺度下预测傅立叶谱系数;其中,预测的傅立叶谱系数包括幅度谱系数和相位谱系数;
21、利用预测的傅立叶谱系数,在多个频域尺度下对所述还原特征进行频谱恢复,生成所述还原特征在多个频域尺度下的stft频谱图;
22、s5、将多个频域尺度下的所述stft频谱图进行逆短时傅里叶变换,将所述stft频谱图转换回时间域,生成多个完整的候选音频;
23、s6、对多个所述候选音频进行融合,生成重建的音频,完成音频离散化重建。
24、在一个优选的实施例中,在步骤s4中,对所述还原特征,在一个频域尺度下预测傅立叶谱系数;其中,预测的傅立叶谱系数包括幅度谱系数和相位谱系数;
25、利用预测的傅立叶谱系数,在一个频域尺度下对所述还原特征进行频谱恢复,生成所述还原特征在一个频域尺度下的stft频谱图。
26、在一个优选的实施例中,在步骤s6中,采用加权平均、基于低频保留高频增强规则或者全连接层预测中的任一方式,对多个所述候选音频进行融合。
27、本发明的再一个方面在于提供一种计算机存储介质,所述计算机存储介质,用于存储计算机执行指令,所述计算机执行指令,用于执行本发明提供的一种音频离散化重建的方法。
28、与现有技术相比,本发明具有以下有益效果:
29、本发明提出的一种解码器、音频离散化重建的系统、方法及存储介质,解码器将离散化特征进行初步特征还原,生成还原特征;对还原特征在多个频域尺度下预测傅立叶谱系数,利用预测的傅立叶谱系数,在多个频域尺度下对还原特征进行频谱恢复,生成还原特征在多个频域尺度下的stft频谱图。将多个频域尺度下的stft频谱图进行逆短时傅里叶变换,将stft频谱图转换回时间域,生成多个完整的候选音频,最后对多个候选音频进行融合,生成重建的音频,可以保证编码器高压缩率的前提下,实现高质量的音频重建。
30、本发明提出的一种解码器、音频离散化重建的系统、方法及存储介质,解码器进行音频重建时,能够避免重建的音频出现失真和噪声,实现重建高保真音频,提高重建的音频的质量。
31、本发明提出的一种解码器、音频离散化重建的系统、方法及存储介质,可以显著降低音频数据的存储需求,同时保持较高的重建质量,适用于通信和存储资源受限的场景,如语音通话、音频流媒体等。
本文地址:https://www.jishuxx.com/zhuanli/20241226/344332.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表