技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种根据VAD处理近端音频的方法与流程  >  正文

一种根据VAD处理近端音频的方法与流程

  • 国知局
  • 2024-06-21 10:39:18

本发明涉及音频实时通话领域,具体而言,涉及一种根据vad处理近端音频的方法。

背景技术:

1、在计算机音频实时通话领域,声学回声消除和噪声消除是音频处理中非常重要的环节。现实中,回声消除器和噪声消除器往往不能完美的去除回声和噪声,这使得近端录音往往含有残留的回声和噪声。这些残留的回声和噪声如果不能完整的被去除,会使得近端的录音含有残留回声和噪声,进而使近端录音的音质下降,使远端收听人的听感不佳。

2、针对这一问题,本发明提出一种处理近端音频的技术方案,通过基于人工智能的语音活跃性探测器对近端录音进行语音活跃性探测,并根据探测结果决定近端录音的抑制处理,从而降低残留回声和噪声造成的影响,提升音频的播放效果。

技术实现思路

1、为实现上述目的,本申请提供了一种根据vad处理近端音频的方法,包括以下步骤:

2、获取近端音频帧,识别所述音频帧的活跃类型,根据活跃类型执行音频处理;

3、其中,活跃类型包括非活跃语音和活跃语音,音频处理包括抑制操作和解除抑制操作;

4、如果活跃类型为非活跃语音,对音频帧执行抑制操作,否则,对音频帧执行解除抑制操作;

5、其中,抑制操作用于操作音频帧的音量逐渐降低;解除抑制操作用于控制音频帧的音量恢复到指定状态。

6、进一步的,识别音频帧的活跃类型包括:加载语音活跃性探测器,向语音活跃性探测器输入指定音频帧,接收该语音活跃性探测器输出的判断结果,其判断结果包括非活跃语音和活跃语音。

7、执行音频处理前,需要预先定义抑制因子数组:

8、抑制因子为预先定义的控制音量降低比率的一组系数,所有系数大于等于0,小于等于1;

9、所述抑制因子构成递减数列,以数组的形式保存,构成抑制因子数组;

10、抑制因子数组中第一个因子为1,最后一个因子为0,长度为l;默认抑制因子的取值为数组中第一个位置的因子1。

11、其中,抑制操作包括:

12、获取音频帧的平均音量v;

13、判断音频帧是否为非活跃语音,如果是非活跃语音,提取上一次操作的抑制因子在抑制因子数组的位置k,如果k小于抑制因子数组长度l,提取抑制因子数组第k+1位置的抑制因子pk+1,调整音频帧的音量为v×pk+1;如果k等于l,抑制因子的位置不变,提取抑制因子数组第k位置的抑制因子pk,调整所述音频帧的音量为v×pk。

14、解除抑制操作包括:

15、获取音频帧的平均音量v;

16、提取上一次抑制操作的抑制因子在抑制因子数组的位置k,如果k大于1,提取抑制因子数组第k-1位置的抑制因子pk-1,调整音频帧的音量为v×p k-1;如果k等于1,抑制因子的位置不变,提取抑制因子数组第1个位置的抑制因子p1,调整所述音频帧的音量为v×p 1。

17、进一步的,抑制操作还包括:在所述音频帧中加入舒适噪声;

18、加入舒适噪声前,对指定的舒适噪声执行抑制操作;

19、对舒适噪声执行抑制操作包括:

20、提取所述抑制因子数组第k位置的抑制因子pk,获取舒适噪声音量vc,将所述舒适噪声的音量控制为vc×(1-pk)。

21、本发明针对近端录音数据复杂性的特点,结合基于人工智能的vad的优点,对采用了回声消除器和噪声消除器的近端音频进行再度优化,实现近端音频音量的缓慢过渡,使远端接收到的音频达到更好的音质,提高远端用户收听时的舒适度。

技术特征:

1.一种根据vad处理近端音频的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的处理近端音频的方法,其特征在于,所述识别所述音频帧的活跃类型包括:加载语音活跃性探测器,向所述语音活跃性探测器输入所述音频帧,接收所述语音活跃性探测器输出的判断结果,所述判断结果包括非活跃语音和活跃语音。

3.根据权利要求1所述的处理近端音频的方法,其特征在于,执行音频处理前定义抑制因子数组:

4.根据权利要求3所述的处理近端音频的方法,其特征在于,所述抑制操作包括:

5.根据权利要求3所述的处理近端音频的方法,其特征在于,所述解除抑制操作包括:

6.根据权利要求4所述的处理近端音频的方法,其特征在于,所述抑制操作还包括:在所述音频帧中加入舒适噪声;

技术总结本发明公开了一种根据VAD处理近端音频的方法,包括以下步骤:获取近端音频帧,识别音频帧的活跃类型,根据活跃类型执行音频处理;其中,活跃类型包括非活跃语音和活跃语音,音频处理包括抑制操作和解除抑制操作;如果活跃类型为非活跃语音,对音频帧执行抑制操作,否则,对音频帧执行解除抑制操作;抑制操作用于操作所述音频帧的音量逐渐降低;解除抑制操作用于控制音频帧的音量恢复到指定状态。根据上述技术方案,可以降低残留回声和噪声造成的影响,提升音频的播放效果。技术研发人员:胡海,周平受保护的技术使用者:贵阳朗玛信息技术股份有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20965.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。