技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频的处理方法、装置、电子设备及存储介质与流程 > 正文

音频的处理方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:30:16

本申请涉及音频处理，尤其涉及一种音频的处理方法、装置、电子设备及存储介质。

背景技术：

1、对讲机声控(voice operated exchange，vox)是一种基于语音识别技术的无线通信技术，它允许用户通过声音来控制对讲机的发射和接收。这种技术的出现极大地方便了用户在各种环境下进行通信，尤其是在嘈杂的环境中，无需按动ptt键即可实现对讲机的发射和接收，提高了通信效率和用户体验。

2、但是，在低信噪比场景下，对讲机受周围环境中噪声或干扰音频的影响，经常出现误触发的现象。

技术实现思路

1、为了解决上述问题，本申请提出一种音频的处理方法、装置、电子设备及存储介质，能够减少终端设备出现声音误触发的情况。

2、根据本申请实施例的第一方面，提供了一种音频的处理方法，包括：

3、在终端设备处于声控模式的情况下，根据第i帧音频的音频特征确定所述第i帧音频中的干净语音；其中，i为正整数；

4、根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征；

5、利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征，控制所述终端设备的声控触发状态。

6、根据本申请实施例的第二方面，提供了一种音频的处理装置，包括：

7、提取模块，用于在终端设备处于声控模式的情况下，根据所述第i帧音频的音频特征确定第i帧音频中的干净语音；其中，i为正整数；

8、统计特征确定模块，用于根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征；

9、处理模块，用于利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征，控制所述终端设备的声控触发状态。

10、本申请第三方面提供了一种电子设备，包括：

11、存储器和处理器；

12、所述存储器与所述处理器连接，用于存储程序；

13、所述处理器，通过运行所述存储器中的程序，实现上述的音频的处理方法。

14、本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的音频的处理方法。

15、上述申请中的一个实施例具有如下优点或有益效果：

16、在终端设备处于声控模式的情况下，根据第i帧音频的音频特征确定第i帧音频中的干净语音；根据第i帧音频中的干净语音确定第i帧音频的统计特征；利用第i帧音频的音频能量以及第i帧音频的统计特征，控制终端设备的声控触发状态。这样，通过第i帧音频的统计特征更准确地反映出第i帧音频中的干净语音的存在情况，再将第i帧音频的音频能量与第i帧音频的统计特征相结合，对音频进行双重判断能够进一步地分辨音频中的语音和干扰音频，从而控制终端设备的声控触发状态，有效地对语音进行发射，减少终端设备出现声音误触发的情况。

技术特征：

1.一种音频的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第i帧音频的统计特征包括短时统计特征和长时统计特征中的至少一项。

3.根据权利要求2所述的方法，其特征在于，在所述第i帧音频的统计特征包括短时统计特征的情况下，所述根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征，包括：

4.根据权利要求2所述的方法，其特征在于，在所述第i帧音频的统计特征包括长时统计特征的情况下，所述根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用第i-k帧音频中的干净语音与所述第i帧音频中的干净语音之间的所有干净语音，确定所述第i帧音频的长时统计特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据第i帧音频的音频特征确定所述第i帧音频中的干净语音，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述第i帧音频中每个采样点的音频特征，确定所述第i帧音频中每个采样点的干净语音，包括：

8.根据权利要求7所述的方法，其特征在于，所述第i帧音频中每个采样点的干净语音的比例信息的确定方法，包括：

9.根据权利要求6所述的方法，其特征在于，在所述第i帧音频的统计特征包括短时统计特征的情况下，所述短时统计特征的确定方式包括：

10.根据权利要求1所述的方法，其特征在于，所述利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征，控制所述终端设备的声控触发状态，包括：

11.一种音频的处理装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至10中任意一项音频的处理方法。

技术总结本申请提供了音频的处理方法、装置、电子设备及存储介质，具体实现方案为：在终端设备处于声控模式的情况下，根据第i帧音频的音频特征确定所述第i帧音频中的干净语音；其中，i为正整数；根据所述第i帧音频中的干净语音确定所述第i帧音频的统计特征；利用所述第i帧音频的音频能量以及所述第i帧音频的统计特征，控制所述终端设备的声控触发状态。根据本申请的技术方案，能够减少终端设备出现声音误触发的情况。技术研发人员：胡新良,吴江照,胡国平受保护的技术使用者：合肥智能语音创新发展有限公司技术研发日：技术公布日：2024/2/25