技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频获取方法、装置、电子设备及存储介质与流程 > 正文

音频获取方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:47:32

本申请涉及音频获取，更具体地，涉及一种音频获取方法、装置、电子设备及存储介质。

背景技术：

1、定向拾音是语音增强众多方法中的一种，是指按照声音来源方向，在混杂的信号中进行目标信号的拾取，即只拾取特定方向传播来的声音信号，而其他方向的噪声、干扰信号不拾取而衰减或是屏蔽，从而达到目标语音增强的效果。为了减少定向拾音的实现成本，可以通过训练模型以通过训练得到的模型完成目标音频信号的拾取。然而，音频信号经室内声场的多次反射会形成多通道的混响音频，模型在定向拾音的过程中难以准确的拾取到重点通道的音频，从而影响定向拾音的效果。

技术实现思路

1、本申请提出了一种音频获取方法、装置、电子设备及存储介质，以改善上述问题。

2、第一方面，本申请提供了一种音频获取方法，所述方法包括：获取样本音频片段，所述样本音频片段包括多个通道，每个通道有对应的实数谱和虚数谱；基于所述对应的实数谱和虚数谱获取与所述多个通道各自对应的掩膜；基于所述对应的掩膜更新每个通道对应的实数谱和虚数谱，得到新的多通道实数谱和新的多通道虚数谱；将所述新的多通道实数谱和新的多通道虚数谱输入待训练神经网络模型的指定注意力池化层，以对所述指定注意力池化层进行训练，并获取所述指定注意力池化层输出的与所述样本音频片段对应的单通道实数谱与单通道虚数谱；基于所述单通道实数谱与单通道虚数谱获取目标损失函数，并将目标损失函数收敛时的待训练神经网络模型作为目标神经网络模型，通过所述目标神经网络模型进行音频拾取。

3、第二方面，本申请提供了一种音频获取装置，所述装置包括：样本音频获取模块，用于获取样本音频片段，所述样本音频片段包括多个通道，每个通道有对应的实数谱和虚数谱；掩膜获取模块，用于基于所述对应的实数谱和虚数谱获取与所述多个通道各自对应的掩膜；参数更新模块，用于基于所述对应的掩膜更新每个通道对应的实数谱和虚数谱，得到新的多通道实数谱和新的多通道虚数谱；训练模块，用于将所述新的多通道实数谱和新的多通道虚数谱输入待训练神经网络模型的指定注意力池化层，以对所述指定注意力池化层进行训练，并获取所述指定注意力池化层输出的与所述样本音频片段对应的单通道实数谱与单通道虚数谱；音频获取模块，用于基于所述单通道实数谱与单通道虚数谱获取目标损失函数，并将目标损失函数收敛时的待训练神经网络模型作为目标神经网络模型，通过所述目标神经网络模型进行音频拾取。

4、第三方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述第一方面提供的音频获取方法。

5、第四方面，本申请提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的音频获取方法。

6、本申请提供的一种音频获取方法、装置、电子设备以及存储介质，通过获取样本音频片段，所述样本音频片段包括多个通道，每个通道有对应的实数谱和虚数谱；基于所述对应的实数谱和虚数谱获取与所述多个通道各自对应的掩膜；基于所述对应的掩膜更新每个通道对应的实数谱和虚数谱，得到新的多通道实数谱和新的多通道虚数谱；将所述新的多通道实数谱和新的多通道虚数谱输入待训练神经网络模型的指定注意力池化层，以对所述指定注意力池化层进行训练，并获取所述指定注意力池化层输出的与所述样本音频片段对应的单通道实数谱与单通道虚数谱；基于所述单通道实数谱与单通道虚数谱获取目标损失函数，并将目标损失函数收敛时的待训练神经网络模型作为目标神经网络模型，通过所述目标神经网络模型进行音频拾取。从而通过引入多通道掩膜，并基于掩膜对每个通道的频谱参数进行更新，继而用更新后的频谱参数训练待训练神经网络模型的指定注意力池化层，以提升神经网络模型对音频片段的关键通道的关注能力，进而提升通过训练得到的目标神经网络模型拾取音频的效果。

技术特征：

1.一种音频获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述指定注意力池化层输出的与所述样本音频片段对应的单通道实数谱与单通道虚数谱，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述对应的实数谱和虚数谱获取与所述多个通道各自对应的掩膜，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述对应的掩膜更新每个通道对应的实数谱和虚数谱，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述单通道实数谱与单通道虚数谱获取目标损失函数，包括：

6.根据权利要求5所述的方法，其特征在于，所述将目标损失函数收敛时的待训练神经网络模型作为目标神经网络模型，包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.一种音频获取装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。

技术总结本申请公开一种音频获取方法、装置、电子设备及存储介质。该方法包括：获取样本音频片段；基于对应的实数谱和虚数谱获取与多个通道各自对应的掩膜；基于对应的掩膜更新每个通道对应的实数谱和虚数谱，得到新的多通道实数谱和新的多通道虚数谱；将新的多通道实数谱和新的多通道虚数谱输入待训练神经网络模型的指定注意力池化层，并获取指定注意力池化层输出的与样本音频片段对应的单通道实数谱与单通道虚数谱；基于单通道实数谱与单通道虚数谱获取目标损失函数，并将目标损失函数收敛时的待训练神经网络模型作为目标神经网络模型，通过目标神经网络模型进行音频拾取。本方法提升了神经网络模型对音频片段关键通道的关注能力，提升音频拾取效果。技术研发人员：黎荣晋,张伟彬,陈东鹏,李亚桐受保护的技术使用者：深圳市声扬科技有限公司技术研发日：技术公布日：2024/4/29