技术新讯 > 乐器声学设备的制造及制作,分析技术 > VAD识别方法、装置、存储介质及计算机设备与流程 > 正文

VAD识别方法、装置、存储介质及计算机设备与流程

国知局
2024-06-21 11:33:12

本技术涉及语音识别，尤其涉及一种vad识别方法、装置、存储介质及计算机设备。

背景技术：

1、随着人机交互技术的不断发展，对于语音识别准确性的要求也越来越高，在语音识别技术中，需要利用语音端点检测技术在连续声音信号中找出语音部分的起始点和终止点，语音端点检测技术通常也称为语音活动性检测技术(voice activity detection，vad)。因此vad识别的准确性对语音识别的准确性会产生直接影响，但目前的vad识别方法仍然存在识别不准的问题。

技术实现思路

1、本技术实施例提供了一种vad识别方法、装置、存储介质及计算机设备，能够提高vad识别的准确性。

2、第一方面，本技术提供了一种vad识别方法，所述方法包括：

3、获取音频信号；

4、将所述音频信号输入至预设的识别模型得到所述音频信号的vad识别结果；所述vad识别结果用于标识所述音频信号中的非语音音频帧和语音音频帧；

5、基于所述vad识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征；

6、根据所述非语音特征和所述语音特征更新所述识别模型；

7、将所述音频信号输入至更新后的识别模型得到新的vad识别结果；

8、若根据新的vad识别结果与历史识别结果判断未满足收敛条件，则基于当前的vad识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征，并基于当前提取的非语音特征和语音特征更新当前使用的识别模型，重新对所述音频信号进行识别，直至重新识别的vad识别结果满足收敛条件时输出满足收敛条件的vad识别结果；其中，所述历史识别结果至少包括前一次识别得到的vad识别结果。

9、在其中一个实施例中，所述收敛条件为当前的vad识别结果与历史识别结果的相似度达到预设阈值。

10、在其中一个实施例中，识别模型包括非语音识别模型和语音识别模型，所述vad识别结果包括非语音音频帧识别结果和语音音频帧识别结果；执行所述将所述音频信号输入至识别模型得到所述音频信号的vad识别结果，包括：

11、将所述音频信号输入至所述非语音识别模型，输出非语音音频帧识别结果；

12、将所述音频信号输入至所述语音识别模型，输出语音音频帧识别结果。

13、在其中一个实施例中，判断vad识别结果是否满足收敛条件，包括：

14、计算所述非语音音频帧识别结果与历史识别结果中的非语音音频帧识别结果的第一相似度是否达到第一预设阈值；

15、计算所述语音音频帧识别结果与历史识别结果中的语音音频帧识别结果的第二相似度是否达到第二预设阈值；

16、在所述第一相似度达到所述第一预设阈值，且所述第二相似度达到所述第二预设阈值时，判定vad识别结果满足收敛条件。

17、在其中一个实施例中，所述根据所述非语音特征和所述语音特征更新所述识别模型，包括：

18、基于所述非语音特征对所述非语音识别模型的特征参数进行更新；

19、基于所述语音特征更新所述语音识别模型的特征参数进行更新。

20、在其中一个实施例中，所述基于所述vad识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征，包括：

21、对所述非语音音频帧识别结果进行特征提取，得到当前的vad识别结果对应的非语音特征；

22、对所述语音音频帧识别结果进行特征提取，得到当前的vad识别结果对应的语音特征。

23、在其中一个实施例中，所述音频信号的vad识别结果输出时使用的识别模型用于作为下一段音频信号的预设的识别模型，在输出所述音频信号满足收敛条件的vad识别结果后，所述方法还包括：

24、获取下一段音频信号进行vad识别输出满足收敛条件的vad识别结果，直至完成所有音频信号的vad识别。

25、第二方面，本技术还提供了一种vad识别装置，其特征在于，包括：

26、获取模块，用于获取音频信号；

27、第一识别模块，用于将所述音频信号输入至识别模型得到所述音频信号的vad识别结果；所述vad识别结果用于标识所述音频信号中的非语音音频帧和语音音频帧；

28、特征提取模块，用于基于所述vad识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征；

29、模型更新模块，用于根据所述非语音特征和所述语音特征更新所述识别模型；

30、第二识别模块，用于将所述音频信号输入至更新后的识别模型得到新的vad识别结果；

31、结果输出模块，用于在根据新的vad识别结果与历史识别结果判断未满足收敛条件时，基于当前的vad识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征，并基于当前提取的非语音特征和语音特征更新当前使用的识别模型，重新对所述音频信号进行识别，直至重新识别的vad识别结果满足收敛条件时输出满足收敛条件的vad识别结果；其中，所述历史识别结果至少包括前一次识别得到的vad识别结果。

32、第三方面，本技术提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述任一项实施例所述vad识别方法的步骤。

33、第四方面，本技术提供另一种计算机设备，包括：一个或多个处理器，以及存储器；

34、所述存储器中存储有计算机可读指令，所述一个或多个处理器执行时所述计算机可读指令时，执行如上述任一项实施例所述vad识别方法的步骤。

35、从以上技术方案可以看出，本技术实施例具有以下优点：

36、本技术提供的vad识别方法、装置、存储介质及计算机设备，将获取的音频信号输入至预设的识别模型进行vad初步识别，得到用于表示音频信号中的非语音音频帧和语音音频帧的vad识别结果，基于初步识别出的非语音音频帧和语音音频帧分别提取非语音特征和语音特征更新预设的识别模型，由于预设的识别模型没有学习到当前识别的音频信号的特征，因此利用预设的识别模型初步识别出的vad识别结果提取出的语音特征和非语音特征与识别模型过往学习的特征会存在一定差异，使得识别结果未必能准确反映出当前识别的音频信号的非语音音频帧和语音音频帧，因此在初步识别后利用识别结果对预设的识别模型进行迭代更新，使识别模型能够学习到当前识别的音频信号的特征，再利用更新后的识别模型重新对音频信号进行vad识别得到新的vad识别结果，能够提高识别的有效性，但若初步识别的vad识别结果提取的特征与识别模型过往学习的特征差异过大，更新后的识别模型可能会不够稳定，使识别结果不准确，因此引入收敛条件进行模型稳定的判断，若根据此时的vad识别结果与初步识别的vad识别结果判断满足收敛条件，意味着识别模型已经较为稳定，则将此时的vad识别结果输出；若不满足收敛条件则意味着识别模型还不够稳定，需要再次迭代更新识别模型，基于此时的vad识别结果提取非语音特征和语音特征继续更新识别模型进行重新识别，直至识别得到的vad识别结果满足收敛条件时输出该vad识别结果，通过收敛判断进行识别模型迭代更新，提高识别的准确度。