技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频劣化方法及相关产品与流程 > 正文

音频劣化方法及相关产品与流程

国知局
2024-09-05 14:25:25

本技术涉及音频处理，特别涉及一种音频劣化方法及相关产品。

背景技术：

1、在音频处理技术领域中，传统的对播放车载音乐、播放音频笔记中的音乐等预设应用场景所产生的预设音乐数据集进行模拟，得到预设音乐数据集的仿真音乐数据集的方法，所得到的仿真音乐数据集与所模拟的预设音乐数据集之间存在差异，存在生成的仿真音乐数据集的准确性偏低的不足。其中，预设音乐数据集是指包含音乐的预设音频的集合，对应地，仿真音乐数据集是指对预设音频进行模拟，所得到的预设音频的仿真音频的集合。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种音频劣化方法及相关产品，以生成预设音乐数据集的更准确的仿真音乐数据集，使仿真音乐数据集中的仿真音频所具有的劣化效果与预设音乐数据集中的预设音频所具有的劣化效果更相似。其中，相关产品包括音质评价模型训练方法、音质评价方法、音频劣化装置、音质评价模型训练装置、音质评价装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种音频劣化方法，所述方法用于生成预设音乐数据集的仿真音乐数据集，所述仿真音乐数据集中的仿真音频所具有的劣化效果与所述预设音乐数据集中的预设音频所具有的劣化效果相匹配，所述预设音频与所述仿真音频均是指包含音乐的音频；所述方法包括：

3、获取劣化占比，所述劣化占比为具有目标劣化效果的预设音频在所述预设音乐数据集中的占比；

4、分别确定对待劣化音乐数据集中的各待劣化音频进行劣化的至少一种预设劣化方式；

5、采用所述至少一种预设劣化方式，对所述待劣化音乐数据集中的所述待劣化音频进行劣化，得到具有至少一种预设劣化效果的仿真音频，各所述仿真音频组成所述仿真音乐数据集，所述预设劣化效果与所述预设劣化方式相匹配，所述仿真音频的音质低于所述待劣化音频的音质；

6、其中，所述目标劣化效果是所述至少一种预设劣化效果中的一种，具有所述目标劣化效果的仿真音频在所述仿真音乐数据集中的占比，等于所述劣化占比。

7、为使对预设音乐数据集进行模拟，所得到的预设音乐数据集的仿真音乐数据集更准确，即，使仿真音乐数据集与预设音乐数据集之间的差异更小，可以将仿真音乐数据集中的仿真音频和预设音乐数据集中的预设音频，均视作待劣化音频被劣化后所得到的音频。基于此，当仿真音乐数据集中的仿真音频所具有的劣化效果，与预设音乐数据集中的预设音频所具有的劣化效果的相似度高时，表明仿真音乐数据集与预设音乐数据集之间的差异小。

8、采用第一方面提供的音频劣化方法，获取预设音乐数据集中，具有目标劣化效果的预设音频的劣化占比，以供后续比对。进而，分别确定对待劣化音乐数据集中的各待劣化音频进行劣化的至少一种预设劣化方式。能够理解地，不同的待劣化音频被劣化的至少一种预设劣化方式可能相同，也可能不同。预设劣化效果与预设劣化方式相匹配，目标劣化效果是至少一种预设劣化效果中的一种，由此可知，目标劣化效果可以是任意一种预设劣化效果，且各目标劣化效果分别对应一个劣化占比。采用至少一种预设劣化方式对待劣化音乐数据集中的待劣化音频进行劣化，则可得到具有至少一种预设劣化效果的仿真音频。能够理解地，劣化后的仿真音频的音质低于待劣化音频的音质。各待劣化音频被劣化后所得到的各仿真音频，则构成仿真音乐数据集。采用本音频劣化方法，在生成仿真音频及仿真音乐数据集时，使仿真音乐数据集中的具有目标劣化效果的仿真音频的占比，等于预设音乐数据集中的具有目标劣化效果的预设音频的劣化占比。

9、通过使仿真音乐数据集中的具有目标劣化效果的仿真音频的占比，等于预设音乐数据集中的具有目标劣化效果的预设音频的劣化占比，则能使仿真音乐数据集中的仿真音频所具有的劣化效果与预设音乐数据集中的预设音频所具有的劣化效果相匹配。当仿真音乐数据集中的仿真音频所具有的劣化效果与预设音乐数据集中的预设音频所具有的劣化效果的相似度达到预设阈值时，认为此两个音乐数据集所具有的劣化效果相匹配。劣化效果越相似，仿真音乐数据集与预设音乐数据集之间的差异则越小，对预设音乐数据集的模拟则越成功。采用本音频劣化方法，生成了预设音乐数据集的更准确的仿真音乐数据集，提升了生成的仿真音乐数据集的准确性。

10、在其中一个实施例中，所述采用所述至少一种预设劣化方式，对所述待劣化音乐数据集中的所述待劣化音频进行劣化，得到具有至少一种预设劣化效果的仿真音频，各所述仿真音频组成所述仿真音乐数据集，包括：

11、从所述预设劣化方式的至少一种预设劣化程度中，确定采用所述预设劣化方式对所述待劣化音频进行劣化时的目标劣化程度；

12、基于所述预设劣化方式的所述目标劣化程度，采用所述至少一种预设劣化方式，对所述待劣化音乐数据集中的所述待劣化音频进行劣化，得到具有所述至少一种预设劣化效果的所述仿真音频，各所述仿真音频组成所述仿真音乐数据集。

13、在其中一个实施例中，在从所述预设劣化方式的至少一种预设劣化程度中，确定采用所述预设劣化方式对所述待劣化音频进行劣化时的目标劣化程度之前，所述方法还包括：

14、采用所述预设劣化方式的至少一种劣化程度对参考音频进行劣化，得到至少一个劣化音频，所述参考音频是指包含音乐的音频；

15、以所述待劣化音频的音质作为评价标准，对所述至少一个劣化音频进行评价，得到至少一个有参分数；

16、在所述至少一个有参分数满足预设要求的情况下，将所述至少一种劣化程度作为所述预设劣化方式的所述至少一种预设劣化程度。

17、在其中一个实施例中，所述预设劣化效果是由于采集及处理预设音频所产生的劣化效果、对预设音频进行编解码所产生的劣化效果、预设音频的音频源所处环境所导致的劣化效果中的任意一种；

18、其中，所述预设音频的音频源所处环境所导致的劣化效果，是指在预设音频为包含音频源和所述音频源所处环境中的声音数据的音频的情况下，所述声音数据所导致的预设音频的劣化效果。

19、在其中一个实施例中，所述预设音频的音频源所处环境所导致的劣化效果，是指在预设音频为直播场景所产生的音频，且所述预设音频包含直播现场环境中的音频源和所述直播现场环境中的除所述音频源以外的声音数据的情况下，所述声音数据所导致的预设音频的劣化效果；

20、所述音频源为所述直播现场环境中所播放的纯净音乐音频或所述直播现场环境中的语音音乐音频，所述语音音乐音频是指包含所述纯净音乐音频和纯净语音音频的音频，所述纯净音乐音频是指仅包含音乐的音频，所述纯净语音音频是指仅包含语音的音频。

21、在其中一个实施例中，所述待劣化音乐数据集包含纯净音乐音频和语音音乐音频中的至少一种，所述待劣化音频为所述纯净音乐音频或所述语音音乐音频，所述纯净音乐音频是指仅包含音乐的音频，所述语音音乐音频是指包含语音和音乐的音频。

22、在其中一个实施例中，在分别确定对待劣化音乐数据集中的各待劣化音频进行劣化的至少一种预设劣化方式之前，所述方法还包括：

23、在所述待劣化音乐数据集包含所述语音音乐音频的情况下，获取纯净音乐数据集和纯净语音数据集，所述纯净音乐数据集包含所述纯净音乐音频，所述纯净语音数据集包含纯净语音音频，所述纯净语音音频是指仅包含语音的音频；

24、将所述纯净音乐音频与所述纯净语音音频进行混合，得到所述语音音乐音频及所述待劣化音乐数据集。

25、在其中一个实施例中，在将所述纯净音乐音频与所述纯净语音音频进行混合，得到所述语音音乐音频及所述待劣化音乐数据集之前，所述方法还包括：

26、对所述纯净音乐音频的时长进行归一化处理，得到时长为预设时长的所述纯净音乐音频；

27、对所述纯净语音音频的时长进行归一化处理，得到时长为所述预设时长的所述纯净语音音频。

28、第二方面，本技术还提供了一种音质评价模型训练方法，所述方法包括：

29、采用如第一方面或第一方面的任一实施例所述的音频劣化方法获取仿真音乐数据集；

30、以待劣化音乐数据集中的待劣化音频的音质作为评价标准，对所述仿真音乐数据集中的仿真音频的音质进行评价，得到所述仿真音频的有参分数，所述待劣化音乐数据集为第一方面或第一方面的任一实施例所述的音频劣化方法中的待劣化音乐数据集；

31、将所述仿真音乐数据集作为训练数据集，并将有参分数集作为所述训练数据集的监督数据集，训练得到所述音质评价模型，所述有参分数集是所述仿真音乐数据集中的所述仿真音频的所述有参分数的集合，所述待劣化音频、所述仿真音频和所述有参分数一一对应。

32、在其中一个实施例中，所述将所述仿真音乐数据集作为训练数据集，并将有参分数集作为所述训练数据集的监督数据集，训练得到所述音质评价模型，包括：

33、将所述仿真音乐数据集中的所述仿真音频输入至初始预测模型，得到所述仿真音频的预测分数；

34、基于所述仿真音频的所述预测分数和所述仿真音频的所述有参分数之间的差异，确定所述初始预测模型的损失，所述损失与所述差异呈正相关；

35、基于所述损失，更新所述初始预测模型的参数，得到所述音质评价模型。

36、在其中一个实施例中，所述将所述仿真音乐数据集中的所述仿真音频输入至初始预测模型，得到所述仿真音频的预测分数，包括：

37、提取所述仿真音乐数据集中的所述仿真音频的时频域特征；

38、将所述时频域特征输入至所述初始预测模型，得到所述仿真音频的所述预测分数。

39、第三方面，本技术还提供了一种音质评价方法，所述方法包括：

40、获取目标音频，所述目标音频是指包含音乐的音频；

41、将所述目标音频输入至如第二方面或第二方面的任一实施例所述的音质评价模型训练方法中的音质评价模型，得到所述目标音频的音质的评价分数。

42、在其中一个实施例中，所述目标音频是预设应用场景所产生的音频，所述预设应用场景是产生如第一方面或第一方面的任一实施例所述的音频劣化方法中的预设音乐数据集的应用场景。

43、第四方面，本技术还提供了一种音频劣化装置，所述装置用于生成预设音乐数据集的仿真音乐数据集，所述仿真音乐数据集中的仿真音频所具有的劣化效果与所述预设音乐数据集中的预设音频所具有的劣化效果相匹配，所述预设音频与所述仿真音频均是指包含音乐的音频；所述装置包括：

44、占比获取模块，用于获取劣化占比，所述劣化占比为具有目标劣化效果的预设音频在所述预设音乐数据集中的占比；

45、方式确定模块，用于分别确定对待劣化音乐数据集中的各待劣化音频进行劣化的至少一种预设劣化方式；

46、音频劣化模块，用于采用所述至少一种预设劣化方式，对所述待劣化音乐数据集中的所述待劣化音频进行劣化，得到具有至少一种预设劣化效果的仿真音频，各所述仿真音频组成所述仿真音乐数据集，所述预设劣化效果与所述预设劣化方式相匹配，所述仿真音频的音质低于所述待劣化音频的音质；

47、其中，所述目标劣化效果是所述至少一种预设劣化效果中的一种，具有所述目标劣化效果的仿真音频在所述仿真音乐数据集中的占比，等于所述劣化占比。

48、第五方面，本技术还提供了一种音质评价模型训练装置，所述装置包括：

49、数据集获取模块，用于采用如第一方面或第一方面的任一实施例所述的音频劣化方法获取仿真音乐数据集；

50、有参评价模块，用于以待劣化音乐数据集中的待劣化音频的音质作为评价标准，对所述仿真音乐数据集中的仿真音频的音质进行评价，得到所述仿真音频的有参分数，所述待劣化音乐数据集为第一方面或第一方面的任一实施例所述的音频劣化方法中的待劣化音乐数据集；

51、模型训练模块，用于将所述仿真音乐数据集作为训练数据集，并将有参分数集作为所述训练数据集的监督数据集，训练得到所述音质评价模型，所述有参分数集是所述仿真音乐数据集中的所述仿真音频的所述有参分数的集合，所述待劣化音频、所述仿真音频和所述有参分数一一对应。

52、第六方面，本技术还提供了一种音质评价装置，所述装置包括：

53、音频获取模块，用于获取目标音频，所述目标音频是指包含音乐的音频；

54、无参评价模块，用于将所述目标音频输入至如第二方面或第二方面的任一实施例所述的音质评价模型训练方法中的音质评价模型，得到所述目标音频的音质的评价分数。

55、第七方面，本技术还提供了一种计算机设备，包括：存储器、处理器，其中，所述存储器存储有程序指令；所述程序指令被所述处理器执行时，使所述处理器执行如第一方面或第一方面的任一实施例所示的方法、或执行如第二方面或第二方面的任一实施例所示的方法、或执行如第三方面或第三方面的任一实施例所示的方法。

56、第八方面，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序；当所述计算机程序在一个或多个处理器上运行时，执行如第一方面或第一方面的任一实施例所示的方法、或执行如第二方面或第二方面的任一实施例所示的方法、或执行如第三方面或第三方面的任一实施例所示的方法。

57、第九方面，本技术还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令；在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行如第一方面或第一方面的任一实施例所示的方法、或执行如第二方面或第二方面的任一实施例所示的方法、或执行如第三方面或第三方面的任一实施例所示的方法。

58、可以理解地，上述第四方面提供的音频劣化装置、第五方面提供的音质评价模型训练装置、第六方面提供的音质评价装置、第七方面提供的计算机设备、第八方面提供的计算机可读存储介质和第九方面提供的计算机程序产品，可用于执行本技术第一方面或第一方面的任一实施例所示的音频劣化方法，或用于执行本技术第二方面或第二方面的任一实施例所示的音质评价模型训练方法，或用于执行本技术第三方面或第三方面的任一实施例所示的音质评价方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。