技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于神经网络的语音丢包补偿方法和装置与流程  >  正文

基于神经网络的语音丢包补偿方法和装置与流程

  • 国知局
  • 2024-06-21 11:56:39

本公开实施例涉及计算机,尤其涉及一种基于神经网络的语音丢包补偿方法和装置。

背景技术:

1、随着互联网技术和通讯技术的发展,音频流传输已经成为了网络通信的一个非常重要的部分。实践中,由于各种因素,比如网络拥堵、带宽限制、硬件故障等等,音频数据包在传输过程中可能会丢失,这会对语音通信的质量产生严重影响,造成用户体验下降。因此,对音频丢包进行修补恢复是亟需解决的问题。

技术实现思路

1、本公开的实施例描述了一种基于神经网络的语音丢包补偿方法和装置,通过该方法训练得到的神经网络,可以更加准确的进行语音丢包补偿。

2、根据第一方面,提供了一种训练用于进行语音丢包补偿的神经网络的方法,其中,待训练神经网络包括编码器层、中间层和解码器层,上述中间层连接于上述编码器层和上述解码器层之间,上述方法包括:获取训练样本集,其中,各训练样本包括样本丢包音频、及其对应的样本丢帧位置信息和样本未丢包音频;基于样本丢包音频及其对应的样本丢帧位置信息,生成输入特征;将上述输入特征输入上述待训练神经网络;将上述中间层输出的特征输入预先训练的基频预测网络,由上述基频预测网络输出预测基频;基于上述预测基频以及基于样本未丢包音频计算得到的真实基频,调整上述编码器层和上述中间层的网络参数。

3、在一个实施例中,上述待训练神经网络为u-net结构的神经网络,其中,上述中间层为上述u-net结构中的瓶颈层。由此,可以通过u-net结构的神经网络实现语音丢包补偿。

4、在一个实施例中,上述基频预测网络包括双向长短期记忆网络。双向长短期记忆网络在处理音频数据时,可以充分考虑音频数据中的前后信息,提高了对音频数据的处理能力。

5、在一个实施例中,上述中间层输出的特征包括样本丢帧位置信息对应的丢帧位置所对应帧的特征,上述基频预测网络输出的预测基频包括丢帧位置所对应帧的基频。

6、在一个实施例中,上述基于样本丢包音频及其对应的样本丢帧位置信息,生成输入特征,包括:对上述样本丢包音频进行子带分解得到多个子带;基于上述多个子带转换到时频域的转换结果和上述样本丢帧位置信息,生成输入特征。由此,可以将样本丢包音频分解为多个子带进行处理,从而大幅度降低了计算复杂度。

7、在一个实施例中,上述编码器层包括多个编码器,各编码器包括门控卷积层和时频空洞卷积层,上述时频空洞卷积层用于通过时间维度和频率维度的空洞卷积来提取特征。由此,可以有效提高卷积层的感受野。

8、在一个实施例中,上述解码器层包括多个解码器,各解码器包括并行的第一分支和第二分支,上述第一分支用于预测音频的实部,上述第二分支用于预测音频的虚部;上述待训练神经网络基于上述编码器层输出的预测音频的实部和虚部,输出样本预测音频;以及,上述方法还包括:将上述样本预测音频输入预先训练的至少一个判别器,由各判别器输出针对上述样本预测音频的判别结果;基于至少一个判别结果、上述样本预测音频和上述样本未丢包音频,计算损失,以及基于上述损失调整上述待训练神经网络的网络参数。由此,可以采用生成对抗结构gan来训练待训练神经网络。

9、在一个实施例中,上述至少一个判别器中包括用于判别上述样本预测音频为真实音频的概率的第一判别器和用于判别上述样本预测音频的音频质量的第二判别器。由此,可以通过使用多个判别器提高生成器的准确度。

10、在一个实施例中,上述方法还包括:将上述待训练神经网络输出的样本预测音频和其对应的样本未丢包音频分别输入预先训练的语音识别模型;获取上述样本预测音频和其对应的样本未丢包音频在上述语音识别模型中的编码层特征;基于所获取的两个编码层特征的差异损失,调整上述待训练神经网络的网络参数。由此,可以通过预先训练的语音识别模型调整待训练神经网络的网络参数,提高待训练神经网络的准确度。

11、根据第二方面,提供了一种基于神经网络的语音丢包补偿方法,包括:获取根据第一方面中任一项的方法训练得到的用于进行语音丢包补偿的神经网络;接收待处理音频和上述待处理音频对应的丢帧位置信息;将基于上述待处理音频和上述待处理音频对应的丢帧位置信息生成的输入特征,输入上述神经网络,得到上述待处理音频对应的丢包补偿后的音频。

12、根据第三方面,一种训练用于进行语音丢包补偿的神经网络的装置,其中,待训练神经网络包括编码器层、中间层和解码器层,上述中间层连接于上述编码器层和上述解码器层之间,上述装置包括:获取单元,配置为,获取训练样本集,其中,各训练样本包括样本丢包音频、及其对应的样本丢帧位置信息和样本未丢包音频;生成单元,配置为,基于样本丢包音频及其对应的样本丢帧位置信息,生成输入特征;第一输入单元,配置为,将上述输入特征输入上述待训练神经网络;第二输入单元,配置为,将上述中间层输出的特征输入预先训练的基频预测网络,由上述基频预测网络输出预测基频;调整单元,配置为,基于上述预测基频以及基于样本未丢包音频计算得到的真实基频,调整上述编码器层和上述中间层的网络参数。

13、根据第四方面,一种基于神经网络的语音丢包补偿装置,包括:模型获取单元,配置为,获取根据第一方面中任一项的方法训练得到的用于进行语音丢包补偿的神经网络;接收单元,配置为,接收待处理音频和上述待处理音频对应的丢帧位置信息;特征输入单元,配置为,将基于上述待处理音频和上述待处理音频对应的丢帧位置信息生成的输入特征,输入上述神经网络,得到上述待处理音频对应的丢包补偿后的音频。

14、根据第五方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现如第一方面中任一项上述的方法。

15、根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令上述计算机执行第一方面中任一项上述的方法。

16、根据第七方面,提供了一种电子设备,包括存储器和处理器,上述存储器中存储有可执行代码,上述处理器执行上述可执行代码时,实现第一方面中任一项上述的方法。

17、根据本公开实施例提供的基于神经网络的语音丢包补偿方法和装置,首先,需要训练神经网络,其中,待训练神经网络可以包括编码器层、中间层和解码器层,该中间层连接于编码器层和解码器层之间。所使用的训练样本包括样本丢包音频、及其对应的样本丢帧位置信息和样本未丢包音频。在训练过程中,可以基于样本丢包音频及其对应的样本丢帧位置信息生成输入特征,并将该输入特征输入待训练神经网络。而后,可以将中间层输出的特征输入预先训练的基频预测网络,由该基频预测网络输出预测基频。然后,基于预测基频以及基于样本未丢包音频计算得到的真实基频,调整编码器层和中间层的网络参数。由此,可以使编码器层和中间层的输出更加准确,进而使训练得到神经网络可以更加准确的进行语音丢包补偿。

技术特征:

1.一种基于神经网络的语音丢包补偿方法,包括:

2.一种训练用于进行语音丢包补偿的神经网络的方法,其中,待训练神经网络包括编码器层、中间层和解码器层,所述中间层连接于所述编码器层和所述解码器层之间,所述方法包括:

3.根据权利要求2所述的方法,其中,所述待训练神经网络为u-net结构的神经网络,其中,所述中间层为所述u-net结构中的瓶颈层。

4.根据权利要求2所述的方法,其中,所述基频预测网络包括双向长短期记忆网络。

5.根据权利要求2所述的方法,其中,所述中间层输出的特征包括样本丢帧位置信息对应的丢帧位置所对应帧的特征,所述基频预测网络输出的预测基频包括丢帧位置所对应帧的基频。

6.根据权利要求2所述的方法,其中,所述基于样本丢包音频及其对应的样本丢帧位置信息,生成输入特征,包括:

7.根据权利要求2所述的方法,其中,所述编码器层包括多个编码器,各编码器包括门控卷积层和时频空洞卷积层,所述时频空洞卷积层用于通过时间维度和频率维度的空洞卷积来提取特征。

8.根据权利要求2所述的方法,其中,所述解码器层包括多个解码器,各解码器包括并行的第一分支和第二分支,所述第一分支用于预测音频的实部,所述第二分支用于预测音频的虚部;所述待训练神经网络基于所述编码器层输出的预测音频的实部和虚部,输出样本预测音频;以及,所述方法还包括:

9.根据权利要求8所述的方法,其中,所述至少一个判别器中包括用于判别所述样本预测音频为真实音频的概率的第一判别器和用于判别所述样本预测音频的音频质量的第二判别器。

10.根据权利要求2所述的方法,其中,所述方法还包括:

11.一种训练用于进行语音丢包补偿的神经网络的装置,其中,待训练神经网络包括编码器层、中间层和解码器层,所述中间层连接于所述编码器层和所述解码器层之间,所述装置包括:

12.一种基于神经网络的语音丢包补偿装置,包括:

13.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1-10中任一项所述的方法。

14.一种电子设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。

技术总结本公开实施例提供了一种基于神经网络的语音丢包补偿方法和装置。该方法的一具体实施方式包括:获取预先训练得到的用于进行语音丢包补偿的神经网络;接收待处理音频和所述待处理音频对应的丢帧位置信息;将基于所述待处理音频和所述待处理音频对应的丢帧位置信息生成的输入特征,输入所述神经网络,得到所述待处理音频对应的丢包补偿后的音频。技术研发人员:夏咸军,张子晗,肖益剑受保护的技术使用者:北京字跳网络技术有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24631.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。