技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频处理方法、模型训练方法、装置、存储介质及电子设备与流程 > 正文

一种音频处理方法、模型训练方法、装置、存储介质及电子设备与流程

国知局
2024-06-21 11:53:56

本公开实施例涉及音频处理技术，尤其涉及一种音频处理方法、模型训练方法、装置、存储介质及电子设备。

背景技术：

1、音频数据的数字化存储和传输在音频信号的保存和传输过程中非常重要，一般是通过在存储或传输之前对音频数据进行压缩处理，压缩处理的目的在于降低音频数据的存储量和传输量。

2、对音频数据进行压缩处理的低码率和音频数据的播放质量是互斥的，通常而言，将音频数据压缩处理至更低的码率，意味着更低的存储量和传输量，但是，同时也导致音频数据在播放时语音质量下降。

技术实现思路

1、本公开提供一种音频处理方法、模型训练方法、装置、存储介质及电子设备，以实现在保证音频数据质量的情况下，减小传输过程中的数据量。

2、第一方面，本公开实施例提供了一种音频处理方法，包括：

3、获取待处理音频数据；

4、基于预先设置的条件网络模型对所述待处理音频数据进行处理，得到所述待处理音频数据对应的条件数据；

5、将所述待处理音频数据对应的条件数据传输至接收端，以使所述接收端基于所述待处理音频数据对应的条件数据进行音频数据恢复。

6、第二方面，本公开实施例还提供了一种音频处理方法，包括：

7、接收发送端传输的条件信息；

8、获取噪声数据，基于预先训练的生成网络模型对所述条件信息和所述噪声数据进行处理，得到目标音频数据。

9、第三方面，本公开实施例还提供了种模型训练方法，包括：

10、获取样本音频数据，以及获取待训练的条件网络模型和待训练的生成网络模型；

11、将所述样本音频数据输入至所述待训练的条件网络模型中，得到所述待训练的条件网络模型输出的第一音频数据和条件数据；

12、对所述样本音频数据进行加噪处理，得到加噪音频数据，将所述条件数据和所述加噪音频数据输入至所述待训练的生成网络模型，得到所述待训练的生成网络模型输出的生成数据；

13、基于所述第一音频数据和所述样本音频数据生成第一损失函数，基于所述生成数据生成第二损失函数；

14、基于所述第一损失函数和/或所述第二损失函数对所述待训练的条件网络模型进行参数调节，基于所述第二损失函数对所述待训练的生成网络模型进行参数调节，直到得到训练好的条件网络模型和训练好的生成网络模型。

15、第四方面，本公开实施例还提供了一种音频处理装置，包括：

16、音频数据获取模块，用于获取待处理音频数据；

17、条件数据生成模块，用于基于预先设置的条件网络模型对所述待处理音频数据进行处理，得到所述待处理音频数据对应的条件数据；

18、条件数据传输模块，用于将所述待处理音频数据对应的条件数据传输至接收端，以使所述接收端基于所述待处理音频数据对应的条件数据进行音频数据恢复。

19、第五方面，本公开实施例还提供了一种音频处理装置，包括：

20、条件信息接收模块，用于接收发送端传输的条件信息；

21、目标音频数据生成模块，用于获取噪声数据，基于预先训练的生成网络模型对所述条件信息和所述噪声数据进行处理，得到目标音频数据。

22、第六方面，本公开实施例还提供了一种模型训练模块，包括：

23、样本获取模块，用于获取样本音频数据，以及获取待训练的条件网络模型和待训练的生成网络模型；

24、处理模块，用于将所述样本音频数据输入至所述待训练的条件网络模型中，得到所述待训练的条件网络模型输出的第一音频数据和条件数据；对所述样本音频数据进行加噪处理，得到加噪音频数据，将所述条件数据和所述加噪音频数据输入至所述待训练的生成网络模型，得到所述待训练的生成网络模型输出的生成数据；

25、损失函数生成模块，用于基于所述第一音频数据和所述样本音频数据生成第一损失函数，基于所述生成数据生成第二损失函数；

26、模型参数调节模块，用于基于所述第一损失函数和/或所述第二损失函数对所述待训练的条件网络模型进行参数调节，基于所述第二损失函数对所述待训练的生成网络模型进行参数调节。

27、第七方面，本公开实施例还提供了一种电子设备，所述电子设备包括：

28、一个或多个处理器；

29、存储装置，用于存储一个或多个程序，

30、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开任意实施例提供的音频处理方法、模型训练方法中的一项或多项。

31、第八方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本公开任意实施例提供的音频处理方法、模型训练方法中的一项或多项。

32、本公开实施例提供的技术方案，通过条件网络模型将待处理音频数据转换为条件数据，通过条件数据表示待处理音频数据，条件数据的数据量小，传输速度快。在将条件数据传输至接收端时，接收端可通过条件数据进行音频数据恢复处理，得到高保真的音频数据，实现兼顾减少传输量和高质量音频数据的。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述第一量化编码处理为矢量量化编码处理，所述第二量化编码处理为标量量化编码处理；

6.根据权利要求1所述的方法，其特征在于，所述条件网络模型包括依次连接的第一编码模块、第一连接模块和第一解码模块，其中，所述第一解码模块中包括多个卷积块，所述第一解码模块中的至少局部卷积块分别输出局部条件数据，各所述卷积块分别输出局部条件数据拼接得到所述条件数据。

7.一种音频处理方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于预先训练的生成网络模型对所述条件信息和所述噪声数据进行处理，得到目标音频数据，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述生成数据和所述噪声数据得到所述目标音频数据，包括：

10.根据权利要求7所述的方法，其特征在于，所述生成网络模型包括依次连接的第二编码模块、第二连接模块和第二解码模块，所述第二编码模块和所述第二解码模块中分别包括预设数量的卷积块，所述第二编码模块和所述第二解码模块中具有对应关系的卷积块跳跃连接；

11.一种模型训练方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，所述编码模型包括第一量化编码模块和第二量化编码模型；

14.根据权利要求12所述的方法，其特征在于，所述方法还包括：

15.一种音频处理装置，其特征在于，包括：

16.一种音频处理装置，其特征在于，包括：

17.一种模型训练模块，其特征在于，包括：

18.一种电子设备，其特征在于，所述电子设备包括：

19.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的音频处理方法、权利要求7-10中任一所述的音频数据方法和权利要求11-14中任一所述的模型训练方法中的一项或多项。

技术总结本公开实施例提供了一种音频处理方法、模型训练方法、装置、存储介质及电子设备。其中音频处理方法包括：获取待处理音频数据；基于预先设置的条件网络模型对所述待处理音频数据进行处理，得到所述待处理音频数据对应的条件数据；将所述待处理音频数据对应的条件数据传输至接收端，以使所述接收端基于所述待处理音频数据对应的条件数据进行音频数据恢复。通过条件数据表示待处理音频数据，条件数据的数据量小，传输速度快。在将条件数据传输至接收端时，接收端可通过条件数据进行音频数据恢复处理，得到高保真的音频数据，实现兼顾减少传输量和高质量音频数据的。技术研发人员：张正普,黄传增,竺烨航,柳德荣,叶煦舟,史俊杰,刘石磊受保护的技术使用者：北京字跳网络技术有限公司技术研发日：技术公布日：2024/5/29