技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音活动检测方法、装置、计算机设备和存储介质与流程 > 正文

语音活动检测方法、装置、计算机设备和存储介质与流程

国知局
2024-10-15 09:21:01

本申请涉及智能语音，特别是涉及一种语音活动检测方法、装置、计算机设备和存储介质。

背景技术：

1、随着智能语音技术的发展，越来越多的智能设备开始使用智能语音技术来完成语音交互，比如智能汽车，智能手机以及智能音箱等。

2、语音活动检测技术是智能语音技术的关键步骤之一，它的目的是从包含语音的一段音频文件中确定出语音信号。语音活动检测不仅涉及到数字信号处理的问题，还涉及到听觉感知特性和人类的语音特征。同时，噪声的多样性也增加了语音活动检测的困难。

3、传统技术中，采用传统的循环神经网络的结构来建模音频时序信息，从而进行语音活动检测，然而，虽然基于深度学习的循环神经网络对非平稳的噪声信号达到较好的检测效果，但是，它存在模型过于单一且对特征的表达不够多样等问题，因此，对于语音活动的检测仍然不够准确。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高语音活动检测准确性的语音活动检测方法、装置、计算机设备和存储介质。

2、一种语音活动检测方法，该方法包括：

3、获取音频采样数据的各音频帧的声学特征；

4、根据声学特征以及预先训练的长短期记忆网络，得到第一张量；

5、根据声学特征以及预先训练的门循环神经网络，得到第二张量；

6、基于软注意力权重分配机制将第一张量、第二张量进行融合，得到特征融合后的融合张量；以及

7、根据融合张量进行语音活动的检测。

8、在一些实施例中，基于软注意力权重分配机制将第一张量、第二张量进行融合，得到特征融合后的融合张量，包括：将第一张量和第二张量进行同位相加处理，得到第三张量；将第三张量进行全局池化处理，得到池化输出；将池化输出经过两个分组卷积层的卷积变化处理，得到卷积输出；根据卷积输出和软注意力权重分配机制，得到融合权重；将第一张量、第二张量与融合权重进行加权求和处理，得到融合张量。

9、在一些实施例中，将第三张量进行全局池化处理，得到池化输出，包括：获取第三张量的全局特征图，确定全局特征图的高和宽；根据高、宽以及第三张量进行全局池化处理，得到池化输出。

10、在一些实施例中，根据卷积输出和软注意力权重分配机制，得到融合权重，包括：将卷积输出最为输入输至归一化激活函数层；基于归一化激活函数层、软注意力机制以及指数函数对卷积输出进行归一化处理；得到融合权重。

11、在一些实施例中，根据声学特征以及预先训练的长短期记忆网络，得到第一张量，包括：将声学特征输入长短期记忆网络，得到长短期记忆网络输出的输出张量，根据预设的批大小、序列长度和隐层的维度对输出张量进行扩展处理，得到第一张量。

12、在一些实施例中，根据声学特征以及预先训练的门循环神经网络，得到第二张量，包括：将声学特征输入门循环神经网络，得到门循环神经网络输出的输出张量，根据预设的批大小、序列长度和隐层的维度对输出张量进行扩展处理，得到第二张量。

13、在一些实施例中，根据融合张量进行语音活动的检测，包括：对融合张量进行维度压缩处理；将维度压缩处理后的融合张量进行全连接层映射以及归一化处理，得到用于判断各音频帧是否为语音帧的概率；根据概率进行语音活动检测。

14、在一些实施例中，该方法还包括：获取车载噪声，车载噪声包括车辆在公路上行驶中开窗时的噪声、车辆在公路上行驶中关窗时的噪声、车辆在停车场环境下开窗时的噪声以及车辆在停车场环境下关窗时的噪声之中的至少一种；根据车载噪声生成音频样本集；利用音频样本集并按照交叉熵损失函数最小化对长短期记忆网络和门循环神经网络进行参数优化；利用音频样本集以及自适应力矩估计优化算法对长短期记忆网络和门循环神经网络进行训练。

15、一种语音活动检测装置，该装置包括：

16、声学特征获取模块，用于获取音频采样的各音频帧的声学特征；

17、第一张量获取模块，用于根据声学特征以及预先训练的长短期记忆网络，得到第一张量；

18、第二张量获取模块，用于根据声学特征以及预先训练的门循环神经网络，得到第二张量；

19、张量融合模块，用于基于软注意力权重分配机制将第一张量、第二张量进行融合，得到特征融合后的融合张量；以及

20、语音活动检测模块，用于根据融合张量进行语音活动的检测。

21、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项语音活动检测方法的步骤。

22、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项语音活动检测方法的步骤。

23、上述语音活动检测方法、装置、计算机设备和存储介质，将音频采样数据的各音频帧的声学特征分别通过长短期记忆网络和门循环神经网络进行特征处理，再将两种不同的神经网络的处理结构进行融合，并进一步结合软注意力机制实现特征权重的合理分配，从而实现了特征表达多样化，并且权重化了重要特征，因此，再将融合张量用于语音活动的检测，能够实现提高语音活动检测准确性的目的。

技术特征：

1.一种语音活动检测方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于软注意力权重分配机制将所述第一张量、所述第二张量进行融合，得到特征融合后的融合张量，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第三张量进行全局池化处理，得到池化输出，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述卷积输出和所述软注意力权重分配机制，得到融合权重，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述声学特征以及预先训练的长短期记忆网络，得到第一张量，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述融合张量进行语音活动的检测，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，还包括：

8.一种语音活动检测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及一种语音活动检测方法、装置、计算机设备和存储介质。该方法包括：获取音频采样数据的各音频帧的声学特征；根据声学特征以及预先训练的长短期记忆网络，得到第一张量；根据声学特征以及预先训练的门循环神经网络，得到第二张量；基于软注意力权重分配机制将第一张量、第二张量进行融合，得到特征融合后的融合张量；以及根据融合张量进行语音活动的检测。采用本方法能够语音活动检测的准确性。技术研发人员：谭应伟,张人杰,丁雪枫受保护的技术使用者：大众问问（北京）信息科技有限公司技术研发日：技术公布日：2024/10/10