音频的处理方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:30:16
本申请涉及音频处理,尤其涉及一种音频的处理方法、装置、电子设备及存储介质。
背景技术:
1、对讲机声控(voice operated exchange,vox)是一种基于语音识别技术的无线通信技术,它允许用户通过声音来控制对讲机的发射和接收。这种技术的出现极大地方便了用户在各种环境下进行通信,尤其是在嘈杂的环境中,无需按动ptt键即可实现对讲机的发射和接收,提高了通信效率和用户体验。
2、但是,在低信噪比场景下,对讲机受周围环境中噪声或干扰音频的影响,经常出现误触发的现象。
技术实现思路
1、为了解决上述问题,本申请提出一种音频的处理方法、装置、电子设备及存储介质,能够减少终端设备出现声音误触发的情况。
2、根据本申请实施例的第一方面,提供了一种音频的处理方法,包括:
3、在终端设备处于声控模式的情况下,根据第i帧音频的音频特征确定所述第i帧音频中的干净语音;其中,i为正整数;
4、根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征;
5、利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态。
6、根据本申请实施例的第二方面,提供了一种音频的处理装置,包括:
7、提取模块,用于在终端设备处于声控模式的情况下,根据所述第i帧音频的音频特征确定第i帧音频中的干净语音;其中,i为正整数;
8、统计特征确定模块,用于根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征;
9、处理模块,用于利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态。
10、本申请第三方面提供了一种电子设备,包括:
11、存储器和处理器;
12、所述存储器与所述处理器连接,用于存储程序;
13、所述处理器,通过运行所述存储器中的程序,实现上述的音频的处理方法。
14、本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的音频的处理方法。
15、上述申请中的一个实施例具有如下优点或有益效果:
16、在终端设备处于声控模式的情况下,根据第i帧音频的音频特征确定第i帧音频中的干净语音;根据第i帧音频中的干净语音确定第i帧音频的统计特征;利用第i帧音频的音频能量以及第i帧音频的统计特征,控制终端设备的声控触发状态。这样,通过第i帧音频的统计特征更准确地反映出第i帧音频中的干净语音的存在情况,再将第i帧音频的音频能量与第i帧音频的统计特征相结合,对音频进行双重判断能够进一步地分辨音频中的语音和干扰音频,从而控制终端设备的声控触发状态,有效地对语音进行发射,减少终端设备出现声音误触发的情况。
技术特征:1.一种音频的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第i帧音频的统计特征包括短时统计特征和长时统计特征中的至少一项。
3.根据权利要求2所述的方法,其特征在于,在所述第i帧音频的统计特征包括短时统计特征的情况下,所述根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征,包括:
4.根据权利要求2所述的方法,其特征在于,在所述第i帧音频的统计特征包括长时统计特征的情况下,所述根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述利用第i-k帧音频中的干净语音与所述第i帧音频中的干净语音之间的所有干净语音,确定所述第i帧音频的长时统计特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据第i帧音频的音频特征确定所述第i帧音频中的干净语音,包括:
7.根据权利要求6所述的方法,其特征在于,所述利用所述第i帧音频中每个采样点的音频特征,确定所述第i帧音频中每个采样点的干净语音,包括:
8.根据权利要求7所述的方法,其特征在于,所述第i帧音频中每个采样点的干净语音的比例信息的确定方法,包括:
9.根据权利要求6所述的方法,其特征在于,在所述第i帧音频的统计特征包括短时统计特征的情况下,所述短时统计特征的确定方式包括:
10.根据权利要求1所述的方法,其特征在于,所述利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态,包括:
11.一种音频的处理装置,其特征在于,包括:
12.一种电子设备,其特征在于,包括:
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至10中任意一项音频的处理方法。
技术总结本申请提供了音频的处理方法、装置、电子设备及存储介质,具体实现方案为:在终端设备处于声控模式的情况下,根据第i帧音频的音频特征确定所述第i帧音频中的干净语音;其中,i为正整数;根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征;利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征,控制所述终端设备的声控触发状态。根据本申请的技术方案,能够减少终端设备出现声音误触发的情况。技术研发人员:胡新良,吴江照,胡国平受保护的技术使用者:合肥智能语音创新发展有限公司技术研发日:技术公布日:2024/2/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21911.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表