技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音检测方法、装置、设备及存储介质与流程  >  正文

语音检测方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:27:24

本发明涉及语音检测,特别是涉及一种语音检测方法、装置、设备及存储介质。

背景技术:

1、语音活动检测(voice activity detection,vad)广泛应用于通话降噪、智能语音、声纹分割聚类、语音编码等语音处理中。vad通常是区分音频流中的静音段和语音段,不能对音乐段和语音段进行区分。但是,对音乐和语音进行区分也具有很强的应用需求,例如,一种应用是对音乐片段和语音片段进行不同的编码,以达到传输效率和音频质量的平衡;另一种应用是实时地从音频流中检测是否会有语音并对检测结果作出响应。如果使用传统的vad,一些音乐、乐器声以及瞬态噪声可能会被误判进而执行错误指令。

2、传统的语音检测方案基于能量、过零率、谱熵等特征很难从带有音乐背景声的音频序列中检测语音片段。基于深度学习的vad目前由于对特征的自动学习能力,可以很好的区分音乐、语音、静音和背景噪声,但需要大量的训练数据以及较多的模型参数,因为使用小模型效果并不理想,对未知的数据的判断效果不佳。

技术实现思路

1、本发明提供一种语音检测方法、装置、设备及存储介质,能够实现通过非训练的方式进行语音检测,算力低且检测精度高。

2、为解决上述技术问题,本发明采用的一个技术方案是:提供一种语音检测方法,包括:

3、获取音频序列;

4、对所述音频序列进行第一音频特征提取,并根据所述第一音频特征对所述音频序列进行语音检测,得到第一语音检测结果;

5、对所述音频序列进行第二音频特征提取,并根据所述第二音频特征对所述音频序列进行语音检测,得到第二语音检测结果;

6、根据所述第一语音检测结果和所述第二语音检测结果确定所述音频序列的语音检测结果。

7、根据本发明的一个实施例,所述第一音频特征包括音频信号的平均能量、能量比例以及过零率;所述对所述音频序列进行第一音频特征提取,并根据所述第一音频特征对所述音频序列进行语音检测,得到第一语音检测结果包括:

8、对所述音频序列进行采样率转换和分帧处理,得到若干帧音频信号;

9、根据各帧所述音频信号计算一帧所述音频信号的所述平均能量以及所述过零率;

10、获取所述音频信号的能量谱,根据所述能量谱获取低频带能量和高频带能量,并计算低频带能量的平均能量和高频带能量的平均能量之间的比例,得到所述能量比例;

11、根据所述平均能量、所述过零率以及所述能量比例对所述音频序列进行语音检测,得到第一语音检测结果。

12、根据本发明的一个实施例,所述获取所述音频信号的能量谱,根据所述能量谱获得低频带能量和高频带能量包括:

13、通过傅里叶变换从频域中获取低频带能量和高频带能量,或通过时域滤波器以及预设截止频率分别获取低频信号和高频信号,并计算所述低频信号的低频带能量和所述高频信号的高频带能量;其中,所述通过傅里叶变换从频域中获取低频带能量和高频带能量包括:

14、对各帧所述音频信号分别进行加窗处理;

15、对加窗处理结果进行快速傅里叶变换处理;

16、根据快速傅里叶变换处理结果计算能量谱;

17、从所述能量谱中统计所述高频带能量和所述低频带能量。

18、根据本发明的一个实施例,所述根据所述平均能量、所述过零率以及所述能量比例对所述音频序列进行语音检测,得到第一语音检测结果包括:

19、将所述平均能量与第一预设阈值进行比较;

20、将所述能量比例与第二预设阈值进行比较;

21、将所述过零率与第三预设阈值进行比较;

22、当同时满足所述平均能量大于第一预设阈值、所述能量比例大于第二预设阈值且所述过零率大于第三预设阈值时,第一语音检测结果为所述音频序列为语音。

23、根据本发明的一个实施例,所述第二特征包括频谱调制能量;所述对所述音频序列进行第二音频特征提取,并根据所述第二音频特征对所述音频序列进行语音检测,得到第二语音检测结果包括:

24、对所述音频序列进行采样率转换处理和切分处理,得到若干音频片段;

25、对各所述音频片段求梅尔谱,得到包含有多个通道的梅尔谱图;

26、对所述梅尔谱图中的各所述通道分别进行傅里叶变换处理,并计算各所述通道的归一化调制能量;

27、根据各所述通道的归一化调制能量对所述音频序列进行语音检测,得到第二语音检测结果。

28、根据本发明的一个实施例,所述根据各所述通道的归一化调制能量对所述音频序列进行语音检测,得到第二语音检测结果包括:

29、计算各所述通道的归一化调制能量之和;

30、将计算结果与第四预设阈值进行比较;

31、若所述计算结果大于所述第四预设阈值,则所述第二语音检测结果为所述音频序列为语音;

32、若所述计算结果小于或等于所述第四预设阈值,则所述第二语音检测结果为所述音频序列为非语音。

33、根据本发明的一个实施例,所述根据所述第一语音检测结果和所述第二语音检测结果确定所述音频序列的语音检测结果包括:

34、判断所述第一语音检测结果和所述第二语音检测结果是否均为语音;

35、若是,则确定语音检测结果为所述音频序列为语音;

36、若否,则确定语音检测结果为所述音频序列为非语音。

37、为解决上述技术问题,本发明采用的另一个技术方案是:提供一种语音检测装置,包括:

38、获取模块,用于获取音频序列;

39、第一音频特征提取模块,用于对所述音频序列进行第一音频特征提取,并根据所述第一音频特征对所述音频序列进行语音检测,得到第一语音检测结果;

40、第二音频特征提取模块,用于对所述音频序列进行第二音频特征提取,并根据所述第二音频特征对所述音频序列进行语音检测,得到第二语音检测结果;

41、语音检测模块,用于根据所述第一语音检测结果和所述第二语音检测结果确定所述音频序列的语音检测结果。

42、为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的语音检测方法。

43、为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述语音检测方法。

44、本发明的有益效果是:通过获取音频序列;对音频序列进行第一音频特征提取,并根据第一音频特征对音频序列进行语音检测,得到第一语音检测结果;对音频序列进行第二音频特征提取,并根据第二音频特征对音频序列进行语音检测,得到第二语音检测结果;根据第一语音检测结果和第二语音检测结果确定音频序列的语音检测结果,能够实现通过非训练的方式从稳态噪声、瞬态噪声以及音乐中进行语音检测,无需大量的训练数据,算力低且检测精度高。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21634.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。