技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音活动检测方法及装置与流程 > 正文

语音活动检测方法及装置与流程

国知局
2024-06-21 11:47:26

本申请涉及语音信号处理领域，具体而言，涉及一种语音活动检测方法及装置。

背景技术：

1、语音信号处理在通信、音频处理和自然语言处理等领域具有广泛的应用。其中，vad(voice activity detection，语音活动检测)作为一项关键技术，扮演着至关重要的角色。它的主要任务是从连续的音频信号中区分出有声音(语音活动)和无声音(静音或噪声活动)的部分，这对于各种应用，包括语音通信、语音识别、噪声抑制以及音频编解码等，都至关重要。

2、然而，传统的vad技术往往在面对复杂的背景噪声和环境变化时显得力不从心，这会导致误判和漏判的问题。这些挑战包括来自各种噪音源的干扰，如交通噪音、风声、设备噪音以及其他说话人的声音。传统vad方法通常基于门限、能量、过零率等信号特征，但这些方法的性能在嘈杂环境中容易受到干扰，从而降低了准确性。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音活动检测方法及装置，以至少解决相关技术对语音活动状态检测准确性低的技术问题。

2、根据本申请实施例的一个方面，提供了一种语音活动检测方法，包括：获取待检测语音；对待检测语音进行特征提取，得到目标特征，目标特征用于反映待检测语音的频谱特征和待检测语音的能量特征；基于目标特征确定待检测语音中每个音频帧的语音活动状态，并根据每个音频帧的状态确定待检测语音的语音状态。

3、可选地，基于目标特征确定待检测语音中每个音频帧的状态，包括：获取待检测语音中的所有音频帧，并对每个音频帧进行特征提取，得到每个音频帧的目标特征；采用目标模型对每个音频帧的目标特征进行分析，得到输出信息，输出信息用于指示每个音频帧的状态对应的置信度分数；基于每个音频帧的状态对应的置信度分数确定每个音频帧的状态。

4、可选地，基于每个音频帧的状态对应的置信度分数确定每个音频帧的状态，包括：获取待检测语音中待确定音频帧对应的置信度分数，并根据置信度分数与第一阈值的第一对比结果确定待确定音频帧的状态；根据待确定音频帧对应的置信度分数与第二阈值的第二对比结果，确定待确定音频帧是否为反转状态，反转状态包括：第一状态和第二状态，第一状态用于表征待确定音频帧的状态为静音转为语音状态，第二状态用于表征待确定音频帧的状态为语音转为静音状态。

5、可选地，根据置信度分数与第一阈值的对比结果确定待确定音频帧的状态，包括：在第一对比结果指示待确定音频为保持语音状态的置信度分数大于第一阈值的情况下，确定待确定音频的状态为保持语音状态；在第一对比结果指示待确定音频为保持语音状态的置信度分数大于第一阈值的情况下，确定待确定音频的状态为保持静音状态。

6、可选地，根据待确定音频帧对应的置信度分数与第二阈值的第二对比结果，确定待确定音频帧是否为反转状态，包括：在待确定音频帧在预设时长第一音频帧之后且第二对比结果指示待确定音频帧对应的置信度分数高于第二阈值时，确定待确定音频帧的状态为第一状态，第一音频帧表示状态为保持语音状态的音频帧；在待确定音频帧在预设时长第二音频帧之后且第二对比结果指示待确定音频帧对应的置信度分数高于第二阈值时，确定待确定音频帧的状态为第二状态，第二音频帧表示状态为保持静音状态的音频帧。

7、可选地，根据每个音频帧的状态确定待检测语音中的语音状态，包括：将每个音频帧的状态输入预设队列中；在预设队列中状态为反转状态的音频帧的数量超过预设数量阈值的情况下，确定预设队列中的所有音频帧为目标音频帧，采用目标检测方式对目标音频帧进行检测得到语音状态进行转换的目标时间点，目标时间点用于表征语音活动的开始时刻和结束时刻。

8、可选地，基于目标特征确定待检测语音中每个音频帧的状态之后，方法还包括：获取已检测音频帧的数量和待检测语音中音频帧总数；在已确定状态的音频帧的数量与待检测语音中音频帧总数相等的情况下，输出指示信息，指示信息用于指示待检测语音中每个音频帧的状态已确定。

9、根据本申请实施例的另一方面，还提供了一种语音活动检测装置，包括：获取模块，用于获取待检测语音；提取模块，用于对待检测语音进行特征提取，得到目标特征，目标特征用于反映待检测语音的频谱特征和待检测语音的能量特征；确定模块，用于基于目标特征确定待检测语音中每个音频帧的状态，并根据每个音频帧的语音活动状态确定待检测语音的语音状态。

10、根据本申请实施例的再一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述语音活动检测方法。

11、根据本申请实施例的再一方面，还提供了一种计算机设备，包括存储器和处理器，处理器用于运行程序，其中，程序运行时执行上述语音活动检测方法。

12、在本申请实施例中，采用获取待检测语音；对待检测语音进行特征提取，得到目标特征，目标特征用于反映待检测语音的频谱特征和反映待检测语音的能量特征；基于目标特征确定待检测语音中每个音频帧的语音活动状态，并根据每个音频帧的状态确定待检测语音的语音状态的方式，通过对待检测语音的频谱特征和能量特征进行识别，达到了获取待检测语音中每个音频帧的语音活动状态的目的，从而实现了提高语音活动状态检测准确率的技术效果，进而解决了相关技术对语音活动状态检测准确性低技术问题。

技术特征：

1.一种语音活动检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述目标特征确定所述待检测语音中每个音频帧的活动状态，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述每个音频帧的状态对应的置信度分数确定所述每个音频帧的活动状态，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述置信度分数与第一阈值的对比结果确定所述待确定音频帧的状态，包括：

5.根据权利要求3所述的方法，其特征在于，根据所述待确定音频帧对应的置信度分数与第二阈值的第二对比结果，确定所述待确定音频帧是否为反转状态，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述每个音频帧的状态确定所述待检测语音中的语音状态，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述目标特征确定所述待检测语音中每个音频帧的状态之后，所述方法还包括：

8.一种语音活动检测装置，其特征在于，包括：

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述语音活动检测方法。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述语音活动检测方法。

技术总结本申请公开了一种语音活动检测方法及装置。其中，该方法包括：获取待检测语音；对待检测语音进行特征提取，得到目标特征，目标特征用于反映待检测语音的频谱特征和待检测语音的能量特征；基于目标特征确定待检测语音中每个音频帧的语音活动状态，并根据每个音频帧的状态确定待检测语音的语音状态。本申请解决了相关技术对语音活动状态检测准确性低技术问题。技术研发人员：杨颜冰受保护的技术使用者：中国电信股份有限公司技术研发日：技术公布日：2024/4/29