技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频丢包恢复方法、装置、电子设备及存储介质 > 正文

音频丢包恢复方法、装置、电子设备及存储介质

国知局
2024-06-21 11:57:16

本技术涉及数据处理，尤其涉及一种音频丢包恢复方法、装置、电子设备及存储介质。

背景技术：

1、随着网络技术、影音设备、移动通信的普及，在各种场景中的音频传输质量越来越受到人们的重视，而由于进行音频传输的网络环境不稳定等因素造成的音频丢包问题则成为本领域中必然要面对的问题。

2、在相关技术中，会利用深度神经网络进行语音丢包的恢复，但是传统数学计算方法在处理语音在网络传输过程中丢包的问题时效果不理想，相关技术的方案难以对丢包部分进行有效的恢复生成，从而当前音频丢包恢复的效果并不理想，恢复后的音频与原本音频差距较大。

技术实现思路

1、有鉴于此，本技术提出一种音频丢包恢复方法、装置、电子设备及存储介质，以解决或部分解决上述问题。

2、基于上述目的，本技术提供了一种音频丢包恢复方法，包括：

3、响应于获取到待恢复音频数据，根据所述待恢复音频数据对应的波形序列确定至少一组连续的丢失帧，根据时域频域插值算法对所述丢失帧进行插值预处理，得到中间音频数据；

4、将所述中间音频数据输入至完成训练的时域频域生成对抗网络模型中，以通过所述时域频域生成对抗网络模型对所述中间音频数据进行恢复调整，生成恢复音频数据；

5、输出所述恢复音频数据。

6、在一些示例性实施例中，所述根据时域频域插值算法对所述丢失帧进行插值预处理，包括：

7、对于任一组连续的丢失帧，基于所述波形序列确定所述任一组连续的丢失帧的比例系数；

8、对所述任一组连续的丢失帧的前后两帧进行傅里叶变换，得到前后两帧的频谱数据；

9、根据所述比例系数及所述前后两帧的频谱数据计算所述任一组连续的丢失帧的频谱数据，对计算结果进行逆傅里叶变换，得到所述任一组连续的丢失帧对应的插值序列；

10、其中，所述比例系数，具体为：

11、

12、其中，t表示连续的丢失帧，r(t)表示比例系数，t1为连续的丢失帧中的第一个丢失的帧，t2为连续的丢失帧中的最后一个丢失的帧；

13、其中，所述任一组连续的丢失帧的频谱数据，具体为：

14、x(t,f)＝(1-r(t))x(t1-1,f)+r(t)x(t2+1,f)

15、其中，x(t,f)表示任一组连续的丢失帧的频谱数据，x(t1-1,f)表示任一组连续的丢失帧的前一帧的频谱数据，x(t2+1,f)表示任一组连续的丢失帧的后一帧的频谱数据。

16、在一些示例性实施例中，所述时域频域生成对抗网络模型的训练过程，包括：

17、获取训练数据集；其中，所述训练数据集包括至少一对训练数据与对照数据的组合，所述训练数据为经过时域频域插值算法进行插值预处理后的音频数据；

18、将所述训练数据输入至跳跃连接编解码网络结构，得到待输出音频数据；

19、对所述待输出音频数据进行波形鉴别及频域复数鉴别，根据鉴别结果对所述跳跃连接编解码网络结构的参数进行调整，以此循环，直至满足预设停止条件，以完成所述模型的训练。

20、在一些示例性实施例中，所述跳跃连接编解码网络结构包括编码单元及解码单元，所述编码单元包括至少一个由一层扩张残差卷积及一层下采样层组成的编码模块，所述解码单元包括至少一个由一层逆扩张残差卷积及一层上采样层组成的解码模块，所述编码单元与所述解码单元通过瓶颈残差卷积连接；

21、所述将所述训练数据输入至跳跃连接编解码网络结构，得到待输出音频数据，包括：

22、将所述训练数据输入至跳跃连接编解码网络结构的所述编码单元，经过所述编码模块的编码后，通过所述瓶颈残差卷积传输至所述解码单元，经过所述解码模块的解码，输出所述待输出音频数据。

23、在一些示例性实施例中，所述根据鉴别结果对所述跳跃连接编解码网络结构的参数进行调整，包括：

24、分别确定波形鉴别结果及频域复数鉴别结果的数学期望，响应于所述数学期望无法满足鉴别损失函数，进行所述参数的调整；

25、其中，波形鉴别结果，具体为：

26、

27、其中，dwav表示波形鉴别结果，表示跳跃连接编解码网络结构要进行调整的波形网络参数，表示进行调整的波形网络参数的映射函数，表示波形序列，j-m和j+m分别表示第j帧的前m帧和后m帧，n表示当前帧的序号；

28、其中，频域复数鉴别结果，具体为：

29、

30、其中，dspec表示频域复数鉴别结果，表示跳跃连接编解码网络结构要进行调整的频域网络参数，表示进行调整的频域网络参数的映射函数，和分别表示频谱数据的实部和虚部；

31、其中，鉴别损失函数，具体为：

32、ld＝e(d′wav2-dwav2)+0.5*e(d′spec2-dspec2)

33、其中，e()表示数学期望，d′wav和d′spec分别表示对照数据的波形鉴别结果和频域复数鉴别结果。

34、在一些示例性实施例中，所述预设停止条件，包括：循环达到预设次数和/或满足预设损失函数；

35、其中，所述预设损失函数，具体为：

36、

37、其中，l表示预设损失函数，n表示训练数据的帧数总量，x′表示对照数据的频谱数据，表示待输出音频数据的频谱数据。

38、在一些示例性实施例中，所述获取训练数据集，包括：

39、获取至少一份未丢包的音频数据，将所述未丢包的音频数据作为对照数据；

40、将所述对照数据在预设网络环境中进行传输，生成丢包数据；

41、根据时域频域插值算法对所述丢包数据进行插值预处理，得到与所述对照数据对应的训练数据。

42、基于同一构思，本技术还提供了一种音频丢包恢复装置，包括：

43、获取模块，用于响应于获取到待恢复音频数据，根据所述待恢复音频数据对应的波形序列确定至少一组连续的丢失帧，根据时域频域插值算法对所述丢失帧进行插值预处理，得到中间音频数据；

44、处理模块，用于将所述中间音频数据输入至完成训练的时域频域生成对抗网络模型中，以通过所述时域频域生成对抗网络模型对所述中间音频数据进行恢复调整，生成恢复音频数据；

45、输出模块，用于输出所述恢复音频数据。

46、基于同一构思，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述的方法。

47、基于同一构思，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机实现如上任一项所述的方法。

48、从上面所述可以看出，本技术提供的一种音频丢包恢复方法、装置、电子设备及存储介质，包括：响应于获取到待恢复音频数据，根据待恢复音频数据对应的波形序列确定至少一组连续的丢失帧，根据时域频域插值算法对丢失帧进行插值预处理，得到中间音频数据；将中间音频数据输入至完成训练的时域频域生成对抗网络模型中，以通过时域频域生成对抗网络模型对中间音频数据进行恢复调整，生成恢复音频数据；输出恢复音频数据。本技术通过时域频域插值算法先对丢包音频进行丢失帧的插值预处理，以此来提升丢失帧与正常帧之间的时间相关性，再利用完成训练的时域频域生成对抗网络模型对丢失帧的音频进行恢复，通过扩张卷积的方式提取音频的深度特征信息，用以恢复音频的丢包部分，提高音频听觉上的连贯性，最终得到效果明显改善的恢复音频，恢复后的音频质量得到明显提升，满足用户的体验要求。