技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频信号处理模型的训练方法、装置、电子设备及介质与流程 > 正文

音频信号处理模型的训练方法、装置、电子设备及介质与流程

国知局
2024-06-21 11:36:49

本公开涉及计算机，特别涉及一种音频信号处理模型的训练方法、装置、电子设备及介质。

背景技术：

1、声学回声是一个常见现象，声学回声包括直接回声和间接回声，直接回声就是指扬声器播放的声音没有经过任何反射直接传入麦克风，间接回声就是指扬声器播放的声音经过不同路径的一次或者多次反射后传入麦克风。在在线聊天和在线唱歌等场景中，当用户伴随背景音乐发出人声时，由于存在声学回声现象，用户的麦克风采集到的声音中同时包含人声和回声，会导致人声的音质变差。因此，对于麦克风采集到的声音，如何在消除其中回声的同时，适当提高人声的音质，从而提高用户的使用体验，是一个亟待解决的问题。

技术实现思路

1、本公开提供一种音频信号处理模型的训练方法、装置、电子设备及介质，能够通过根据样本信号确定是否处在双讲场景下，从而确定在训练目标值中是否保留部分回声。通过根据上述训练目标值对音频信号处理模型进行训练，从而使得在双讲场景下使用上述音频信号处理模型时，可以在尽量抑制回声的前提下，减少了对人声的剪切量，从而提高了人声的音质。本公开的技术方案如下：

2、根据本公开实施例的一方面，提供了一种音频信号处理模型的训练方法，所述方法包括：

3、获取样本语音信号、样本噪声信号以及样本回声信号，所述样本语音信号用于指示麦克风采集到的纯净人声，所述样本噪声信号用于指示麦克风采集到的噪声，所述样本回声信号用于指示麦克风采集到的背景音乐的回声；

4、基于所述样本语音信号、所述样本噪声信号、所述样本回声信号以及掩蔽矩阵，确定音频信号处理模型的训练目标值，所述掩蔽矩阵用于指示在双讲场景下保留部分回声，所述双讲场景是指同时存在背景音乐和人声的场景，所述音频信号处理模型用于抑制回声和噪声；

5、基于所述训练目标值和所述音频信号处理模型的输出信号，更新所述音频信号处理模型的参数。

6、根据本公开实施例的另一方面，提供了一种音频信号处理模型的训练装置，所述装置包括：

7、获取单元，被配置为获取样本语音信号、样本噪声信号以及样本回声信号，所述样本语音信号用于指示麦克风采集到的纯净人声，所述样本噪声信号用于指示麦克风采集到的噪声，所述样本回声信号用于指示麦克风采集到的背景音乐的回声；

8、确定单元，被配置为基于所述样本语音信号、所述样本噪声信号、所述样本回声信号以及掩蔽矩阵，确定音频信号处理模型的训练目标值，所述掩蔽矩阵用于指示在双讲场景下保留部分回声，所述双讲场景是指同时存在背景音乐和人声的场景，所述音频信号处理模型用于抑制回声和噪声；

9、更新单元，被配置为基于所述训练目标值和所述音频信号处理模型的输出信号，更新所述音频信号处理模型的参数。

10、在一些实施例中，所述确定单元，包括：

11、变换子单元，被配置为对所述样本语音信号、所述样本噪声信号以及所述样本回声信号进行频域变换，得到样本语音频谱、样本噪声频谱以及样本回声频谱，所述样本语音频谱、所述样本噪声频谱以及所述样本回声频谱均包括n个帧，每帧包括k个频率点，其中，n为正整数，k为正整数；

12、矩阵确定子单元，被配置为基于所述样本语音频谱和所述样本回声频谱，确定所述掩蔽矩阵，所述掩蔽矩阵为n行k列的矩阵，所述掩蔽矩阵中元素的值用于表示场景，所述场景包括单讲场景和所述双讲场景，所述单讲场景是指仅存在背景音乐的场景；

13、目标值确定子单元，被配置为基于所述样本语音频谱、所述样本噪声频谱、所述样本回声频谱以及所述掩蔽矩阵，确定所述音频信号处理模型的所述训练目标值。

14、在一些实施例中，所述矩阵确定子单元，被配置为对于任一帧中的任一频率点，在所述样本语音频谱和所述样本回声频谱中，确定所述频率点的语音幅值和所述频率点的回声幅值；对所述频率点的语音幅值的模进行平方，得到语音能量；对所述频率点的回声幅值的模进行平方，得到回声能量；将所述语音能量和所述回声能量的比值，转换为毫瓦分贝，得到所述频率点的信回比，所述频率点的信回比用于指示在所述频率点处所述样本语音信号和所述样本回声信号之间的比例关系；基于所述频率点的信回比，确定在所述掩蔽矩阵中所述频率点对应的元素。

15、在一些实施例中，所述矩阵确定子单元，被配置为在所述频率点的信回比小于信回比阈值的情况下，将0确定为在所述掩蔽矩阵中所述频率点对应的元素，0用于指示在所述频率点处为所述单讲场景；或者，在所述频率点的信回比不小于信回比阈值的情况下，将1确定为在所述掩蔽矩阵中所述频率点对应的元素，1用于指示在所述频率点处为所述双讲场景。

16、在一些实施例中，所述目标值确定子单元，被配置为对于任一帧中的任一频率点，在所述样本语音频谱、所述样本噪声频谱以及所述样本回声频谱中，确定所述频率点的语音幅值、所述频率点的噪声幅值以及所述频率点的回声幅值；在所述掩蔽矩阵中确定所述频率点所对应元素的元素值；将目标衰减值转换为幅值比值的形式，得到衰减系数，所述目标衰减值是指在所述双讲场景下从所述样本回声信号中保留的残留回声信号的衰减值，所述衰减系数是指所述残留回声信号在所述样本回声信号中所占的比例；将所述频率点的回声幅值、所述元素值以及所述衰减系数的乘积值，确定为所述频率点的残留回声幅值；基于所述频率点的残留回声幅值、所述频率点的语音幅值、所述频率点的噪声幅值以及所述频率点的回声幅值，确定所述音频信号处理模型的所述训练目标值。

17、在一些实施例中，所述目标值确定子单元，被配置为对所述频率点的语音幅值与所述频率点的残留回声幅值之和的模进行平方，得到目标能量，所述目标能量用于指示在所述样本语音信号中添加所述残留回声信号后在所述频率点处的能量；对所述频率点的噪声幅值的模进行平方，得到噪声能量；对所述频率点的回声幅值与所述频率点的残留回声幅值之差的模进行平方，得到抑制能量，所述抑制能量用于指示在所述样本回声信号中去除所述残留回声信号后在所述频率点处的能量；对所述目标能量、所述噪声能量以及所述抑制能量进行求和，得到音频能量；对所述目标能量与所述音频能量的比值进行开方，得到所述频率点的理想比值掩蔽，所述频率点的理想比值掩蔽用于指示在所述频率点处所述样本语音信号和样本音频信号之间的比例关系，所述样本音频信号由所述样本语音信号、所述样本噪声信号以及所述样本回声信号构成；基于所述频率点的理想比值掩蔽、所述频率点的语音幅值、所述频率点的噪声幅值以及所述频率点的回声幅值，确定所述音频信号处理模型的所述训练目标值。

18、在一些实施例中，所述目标值确定子单元，被配置为对所述频率点的语音幅值、所述频率点的噪声幅值以及所述频率点的回声幅值进行求和，得到所述频率点的音频幅值，所述频率点的音频幅值用于指示在所述频率点处所述样本音频信号的频域信息；将所述频率点的音频幅值与所述频率点的理想比值掩蔽相乘，得到所述音频信号处理模型的所述训练目标值。

19、在一些实施例中，所述更新单元，被配置为将样本音频信号输入所述音频信号处理模型，得到所述音频信号处理模型的输出信号，所述样本音频信号包括所述样本语音信号、所述样本噪声信号以及所述样本回声信号；在所述输出信号的频谱中，对于任一帧中的任一频率点，确定所述频率点的输出幅值，所述输出信号的频谱包括n个帧，每帧包括k个频率点，其中，n为正整数，k为正整数；将所述频率点的所述训练目标值和所述频率点的输出幅值之间的差值，确定为损失值；基于所述损失值，更新所述音频信号处理模型的参数。

20、根据本公开实施例的另一方面，提供一种电子设备，该电子设备包括：

21、一个或多个处理器；

22、用于存储该处理器可执行程序代码的存储器；

23、其中，该处理器被配置为执行该程序代码，以实现上述音频信号处理模型的训练方法。

24、根据本公开实施例的另一方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述音频信号处理模型的训练方法。

25、根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述音频信号处理模型的训练方法。

26、本公开实施例提供了一种音频信号处理模型的训练方法，通过根据样本信号确定是否处在双讲场景下，从而确定在训练目标值中是否保留部分回声。通过根据上述训练目标值对音频信号处理模型进行训练，从而使得在双讲场景下使用上述音频信号处理模型时，可以在尽量抑制回声的前提下，减少了对人声的剪切量，从而提高了人声的音质。

27、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。