技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频的处理方法、装置、电子设备及存储介质与流程  >  正文

音频的处理方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:30:16

本申请涉及音频处理,尤其涉及一种音频的处理方法、装置、电子设备及存储介质。

背景技术:

1、对讲机声控(voice operated exchange,vox)是一种基于语音识别技术的无线通信技术,它允许用户通过声音来控制对讲机的发射和接收。这种技术的出现极大地方便了用户在各种环境下进行通信,尤其是在嘈杂的环境中,无需按动ptt键即可实现对讲机的发射和接收,提高了通信效率和用户体验。

2、但是,在低信噪比场景下,对讲机受周围环境中噪声或干扰音频的影响,经常出现误触发的现象。

技术实现思路

1、为了解决上述问题,本申请提出一种音频的处理方法、装置、电子设备及存储介质,能够减少终端设备出现声音误触发的情况。

2、根据本申请实施例的第一方面,提供了一种音频的处理方法,包括:

3、在终端设备处于声控模式的情况下,根据第i帧音频的音频特征确定所述第i帧音频中的干净语音;其中,i为正整数;

4、根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征;

5、利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态。

6、根据本申请实施例的第二方面,提供了一种音频的处理装置,包括:

7、提取模块,用于在终端设备处于声控模式的情况下,根据所述第i帧音频的音频特征确定第i帧音频中的干净语音;其中,i为正整数;

8、统计特征确定模块,用于根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征;

9、处理模块,用于利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态。

10、本申请第三方面提供了一种电子设备,包括:

11、存储器和处理器;

12、所述存储器与所述处理器连接,用于存储程序;

13、所述处理器,通过运行所述存储器中的程序,实现上述的音频的处理方法。

14、本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的音频的处理方法。

15、上述申请中的一个实施例具有如下优点或有益效果:

16、在终端设备处于声控模式的情况下,根据第i帧音频的音频特征确定第i帧音频中的干净语音;根据第i帧音频中的干净语音确定第i帧音频的统计特征;利用第i帧音频的音频能量以及第i帧音频的统计特征,控制终端设备的声控触发状态。这样,通过第i帧音频的统计特征更准确地反映出第i帧音频中的干净语音的存在情况,再将第i帧音频的音频能量与第i帧音频的统计特征相结合,对音频进行双重判断能够进一步地分辨音频中的语音和干扰音频,从而控制终端设备的声控触发状态,有效地对语音进行发射,减少终端设备出现声音误触发的情况。

技术特征:

1.一种音频的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第i帧音频的统计特征包括短时统计特征和长时统计特征中的至少一项。

3.根据权利要求2所述的方法,其特征在于,在所述第i帧音频的统计特征包括短时统计特征的情况下,所述根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征,包括:

4.根据权利要求2所述的方法,其特征在于,在所述第i帧音频的统计特征包括长时统计特征的情况下,所述根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用第i-k帧音频中的干净语音与所述第i帧音频中的干净语音之间的所有干净语音,确定所述第i帧音频的长时统计特征,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据第i帧音频的音频特征确定所述第i帧音频中的干净语音,包括:

7.根据权利要求6所述的方法,其特征在于,所述利用所述第i帧音频中每个采样点的音频特征,确定所述第i帧音频中每个采样点的干净语音,包括:

8.根据权利要求7所述的方法,其特征在于,所述第i帧音频中每个采样点的干净语音的比例信息的确定方法,包括:

9.根据权利要求6所述的方法,其特征在于,在所述第i帧音频的统计特征包括短时统计特征的情况下,所述短时统计特征的确定方式包括:

10.根据权利要求1所述的方法,其特征在于,所述利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态,包括:

11.一种音频的处理装置,其特征在于,包括:

12.一种电子设备,其特征在于,包括:

13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至10中任意一项音频的处理方法。

技术总结本申请提供了音频的处理方法、装置、电子设备及存储介质,具体实现方案为:在终端设备处于声控模式的情况下,根据第i帧音频的音频特征确定所述第i帧音频中的干净语音;其中,i为正整数;根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征;利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态。根据本申请的技术方案,能够减少终端设备出现声音误触发的情况。技术研发人员:胡新良,吴江照,胡国平受保护的技术使用者:合肥智能语音创新发展有限公司技术研发日:技术公布日:2024/2/25

本文地址:https://www.jishuxx.com/zhuanli/20240618/21911.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。