技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频修复方法、装置、介质和计算设备与流程 > 正文

音频修复方法、装置、介质和计算设备与流程

国知局
2024-11-18 18:17:06

本公开的实施方式涉及音频，更具体地，本公开的实施方式涉及一种音频修复方法、装置、介质和计算设备。

背景技术：

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、当前，互联网中存在海量的音频数据(如音乐、演讲)，其中不乏大量内容丰富、价值较高但音频质量低或受损的音频。这些音频数据或是因为年代限制，音源、录制的设备性能低导致录制时就存在失真、噪音等问题，或是因为传播过程中反复有损编解码，导致码率、有效频率的下降等问题，这将影响音频播放性能，降低用户体验。

技术实现思路

1、本公开提供一种音频修复方法、装置、介质和计算设备，以解决音质受损等问题。

2、在本公开实施方式的第一方面，提供一种音频修复方法，包括：获取待修复的第一音频的第一特征向量以及所述第一音频的音频描述信息；基于设定的时间步，获取所述时间步中每一步所对应的音频噪声，并根据各个所述音频噪声生成噪声向量；根据所述第一特征向量、所述时间步以及所述音频描述信息，对所述噪声向量进行去噪，得到目标特征向量；根据所述目标特征向量，获取完成修复的第二音频。

3、在本公开的一个实施例中，所述根据所述第一特征向量、所述时间步以及所述音频描述信息，对所述噪声向量进行去噪，得到目标特征向量，包括：确定所述时间步对应的第二特征向量以及所述音频描述信息对应的第三特征向量；根据所述第一特征向量、所述第二特征向量以及所述第三特征向量，对所述噪声向量进行目标次数的去噪，得到目标特征向量，所述目标次数与所述音频噪声的数量相同。

4、在本公开的另一个实施例中，根据所述第一特征向量、所述第二特征向量以及所述第三特征向量，对所述噪声向量进行目标次数的去噪，包括：获取上一次进行去噪后的第一噪声向量，并根据所述第一特征向量与所述第一噪声向量确定中间向量；将所述中间向量、所述第二特征向量以及所述第三特征向量输入至适配器模块；将所述适配器模块的输出参数、所述第一噪声向量、所述第二特征向量以及所述第三特征向量输入音频生成模块，得到所述音频生成模块输出的第二噪声向量，并更新当前的去噪次数；响应于所述去噪次数小于所述目标次数，将所述第二噪声向量更新为第一噪声向量，并返回执行所述根据所述第一特征向量与所述第二特征向量确定中间向量的步骤。

5、在本公开的又一个实施例中，所述根据所述第一特征向量与所述第一噪声向量确定中间向量，包括：对所述第一特征向量进行初始置零的卷积操作，得到第四特征向量；对所述第四特征向量与所述第一噪声向量进行相加，得到所述中间向量。

6、在本公开的再一个实施例中，所述适配器模块包括多个依次连接的控制单元以及每个所述控制单元对应的初始置零的卷积层；所述音频生成模块包括多个依次连接编码器单元以及每个所述编码器单元对应的解码器单元，各个所述解码器单元依次连接；其中，一个控制单元的输出参数输入至下一个控制单元，且所述一个控制单元的输出参数输入至所述一个控制单元对应的卷积层；所述卷积层的输出参数输入至所述卷积层对应的解码器单元；一个编码器单元的输出参数输入至下一个编码器单元，且所述一个编码器单元的输出参数输入至所述一个编码器单元对应的解码器单元；一个解码器单元的输出参数输入至下一个解码器单元。

7、在本公开的再一个实施例中，所述获取待修复的第一音频的第一特征向量以及所述第一音频的音频描述信息，包括：控制设定模型中的编码器，在隐空间将所述第一音频中的有效内容编码为隐向量，所述有效内容用于指示所述第一音频中除噪音之外的音频内容；控制所述设定模型中的解码器，在隐空间将所述隐向量解码为中间音频；将所述隐向量确定为所述第一特征向量，并从所述中间音频中提取所述音频描述信息；所述根据所述目标特征向量，获取完成修复的第二音频，包括：控制所述解码器，在隐空间将所述目标特征向量解码为所述第二音频。

8、在本公开的再一个实施例中，所述设定模型的训练步骤具体如下：获取多个训练样本，所述训练样本包括高质量音频以及低质量音频，所述高质量音频用于指示音质高于或等于预设音质的音频，所述低质量音频用于指示音质低于预设音质的音频；根据各个所述训练样本，对预设模型进行训练，得到所述设定模型。

9、在本公开的再一个实施例中，所述根据各个所述训练样本，对预设模型进行训练，包括：基于各个所述训练样本中的高质量音频，对预设模型进行训练，得到中间模型，所述预设模型的损失函数基于重构损失函数、对抗损失函数、对抗特征损失函、散度损失函数、所述高质量音频以及所述低质量音频进行更新；根据各个所述训练样本，对所述中间模型进行训练，得到所述设定模型。

10、在本公开的再一个实施例中，所述获取多个训练样本，包括：获取多个高质量音频；对每个所述高质量音频，进行音质的降质处理，得到多个低质量音频；根据所述高质量音频以及对应的低质量音频，建构训练样本。

11、在本公开的再一个实施例中，所述对每个所述高质量音频，进行音质的降质处理，包括：将所述高质量音频，输入降质处理器，得到所述降质处理器输出的低质量音频。

12、在本公开的再一个实施例中，所述降质处理器包括以下至少一种功能：对音频添加噪声、剪切音频、频谱能量掩膜、添加混响、增减音量、修改信号幅度、对音频模拟失真、采用有损编码器编码音频、采用有损音质的采样格式对音频进行采样、以及采用有损音质的编码参数编码音频。

13、在本公开的再一个实施例中，所述获取多个高质量音频，包括：从网络上获取音质高于或等于预设音质的待处理音频，所述待处理音频的采样率大于预设采样率；将各个所述待处理音频重新采样成设定采样率的音频，作为高质量音频。

14、在本公开的再一个实施例中，所述音频描述信息包括所述第一音频的节奏参数、乐器参数、类型以及音频描述文本。

15、在本公开的再一个实施例中，所述获取所述第一音频的音频描述信息，包括：采用多模态音频文本模型，从所述第一音频中提取所述音频描述信息。

16、本公开实施方式的第二方面，提供一种音频修复装置，包括：第一获取模块，用于获取待修复的第一音频的第一特征向量以及所述第一音频的音频描述信息；第二获取模块，用于基于设定的时间步，获取所述时间步中每一步所对应的音频噪声，并根据各个所述音频噪声生成噪声向量；去噪模块，用于根据所述第一特征向量以及所述音频描述信息，对所述噪声向量进行去噪，得到目标特征向量；第三获取模块，用于根据所述目标特征向量，获取完成修复的第二音频。

17、在本公开的一个实施例中，所述去噪模块，包括：第一确定单元，用于确定所述时间步对应的第二特征向量以及所述音频描述信息对应的第三特征向量；目标次数去噪单元，用于根据所述第一特征向量、所述第二特征向量以及所述第三特征向量，对所述噪声向量进行目标次数的去噪，得到目标特征向量，所述目标次数与所述音频噪声的数量相同。

18、在本公开的另一个实施例中，所述目标次数去噪单元，具体用于：获取上一次进行去噪后的第一噪声向量，并根据所述第一特征向量与所述第一噪声向量确定中间向量；将所述中间向量、所述第二特征向量以及所述第三特征向量输入至适配器模块；将所述适配器模块的输出参数、所述第一噪声向量、所述第二特征向量以及所述第三特征向量输入音频生成模块，得到所述音频生成模块输出的第二噪声向量，并更新当前的去噪次数；响应于所述去噪次数小于所述目标次数，将所述第二噪声向量更新为第一噪声向量，并返回执行所述根据所述第一特征向量与所述第二特征向量确定中间向量的步骤。

19、在本公开的又一个实施例中，所述根据所述第一特征向量与所述第一噪声向量确定中间向量，包括：对所述第一特征向量进行初始置零的卷积操作，得到第四特征向量；对所述第四特征向量与所述第一噪声向量进行相加，得到所述中间向量。

20、在本公开的再一个实施例中，所述适配器模块包括多个依次连接的控制单元以及每个所述控制单元对应的初始置零的卷积层；所述音频生成模块包括多个依次连接编码器单元以及每个所述编码器单元对应的解码器单元，各个所述解码器单元依次连接；其中，一个控制单元的输出参数输入至下一个控制单元，且所述一个控制单元的输出参数输入至所述一个控制单元对应的卷积层；所述卷积层的输出参数输入至所述卷积层对应的解码器单元；一个编码器单元的输出参数输入至下一个编码器单元，且所述一个编码器单元的输出参数输入至所述一个编码器单元对应的解码器单元；一个解码器单元的输出参数输入至下一个解码器单元。

21、在本公开的再一个实施例中，所述第一获取模块，包括：第一控制单元，用于控制设定模型中的编码器，在隐空间将所述第一音频中的有效内容编码为隐向量，所述有效内容用于指示所述第一音频中除噪音之外的音频内容；第二控制单元，用于控制所述设定模型中的解码器，在隐空间将所述隐向量解码为中间音频；提取单元，用于将所述隐向量确定为所述第一特征向量，并从所述中间音频中提取所述音频描述信息；所述第三获取模块，包括：第三控制单元，用于控制所述解码器，在隐空间将所述目标特征向量解码为所述第二音频。

22、在本公开的再一个实施例中，所述设定模型的训练步骤具体如下：获取多个训练样本，所述训练样本包括高质量音频以及低质量音频，所述高质量音频用于指示音质高于或等于预设音质的音频，所述低质量音频用于指示音质低于预设音质的音频；根据各个所述训练样本，对预设模型进行训练，得到所述设定模型。

23、在本公开的再一个实施例中，所述根据各个所述训练样本，对预设模型进行训练，包括：基于各个所述训练样本中的高质量音频，对预设模型进行训练，得到中间模型，所述预设模型的损失函数基于重构损失函数、对抗损失函数、对抗特征损失函、散度损失函数、所述高质量音频以及所述低质量音频进行更新；根据各个所述训练样本，对所述中间模型进行训练，得到所述设定模型。

24、在本公开的再一个实施例中，所述获取多个训练样本，包括：获取多个高质量音频；对每个所述高质量音频，进行音质的降质处理，得到多个低质量音频；根据所述高质量音频以及对应的低质量音频，建构训练样本。

25、在本公开的再一个实施例中，所述对每个所述高质量音频，进行音质的降质处理，包括：将所述高质量音频，输入降质处理器，得到所述降质处理器输出的低质量音频。

26、在本公开的再一个实施例中，所述降质处理器包括以下至少一种功能：对音频添加噪声、剪切音频、频谱能量掩膜、添加混响、增减音量、修改信号幅度、对音频模拟失真、采用有损编码器编码音频、采用有损音质的采样格式对音频进行采样、以及采用有损音质的编码参数编码音频。

27、在本公开的再一个实施例中，所述获取多个高质量音频，包括：从网络上获取音质高于或等于预设音质的待处理音频，所述待处理音频的采样率大于预设采样率；将各个所述待处理音频重新采样成设定采样率的音频，作为高质量音频。

28、在本公开的再一个实施例中，所述音频描述信息包括所述第一音频的节奏参数、乐器参数、类型以及音频描述文本。

29、在本公开的再一个实施例中，所述第一获取模块，具体用于：采用多模态音频文本模型，从所述第一音频中提取所述音频描述信息。

30、本公开实施方式的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述第一方面任一项提供的方法。

31、本公开实施方式的第四方面，提供一种计算设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述计算设备执行上述第一方面任一项提供的方法。

32、本公开实施例的音频修复方法、装置、介质和计算设备，通过获取待修复的第一音频的第一特征向量以及第一音频的音频描述信息，并基于设定的时间步，获取时间步中每一步所对应的音频噪声，并根据各个音频噪声生成噪声向量，根据第一特征向量、时间步以及音频描述信息，对噪声向量进行去噪，得到目标特征向量，以及根据目标特征向量，获取完成修复的第二音频。此过程中，结合了源音频的特征信息以及源音频的文本描述信息，引导音频噪声进行去噪以得到修复后的音频，可以实现对低质量音频的高效复原，同时不会造成音频的音色或语义变化，且可以适用于任意种类的音频数据，普适性更强。如此，便有效解决了音频的音质受损等问题，为用户带来了更好的体验。