技术新讯 > 乐器声学设备的制造及制作,分析技术 > VAD识别方法、装置、存储介质及计算机设备与流程 > 正文

VAD识别方法、装置、存储介质及计算机设备与流程

国知局
2024-06-21 11:33:41

本申请涉及语音识别，尤其涉及一种vad识别方法、装置、存储介质及计算机设备。

背景技术：

1、随着人机交互技术的不断发展，对于语音识别准确性的要求也越来越高，在语音识别技术中，需要利用语音端点检测技术在连续声音信号中找出语音部分的起始点和终止点，语音端点检测技术通常也称为语音活动性检测技术(voice activity detection，vad)。因此vad识别的准确性对语音识别的准确性会产生直接影响，但目前的vad识别方法仍然存在识别不准的问题。

技术实现思路

1、本申请实施例提供了一种vad识别方法、装置、存储介质及计算机设备，能够提高vad识别的准确性。

2、第一方面，本申请提供了一种vad识别方法，所述方法包括：

3、获取音频信号和与所述音频信号同步的振动信号；

4、利用预设的语音识别模型解析所述音频信号，得到初步识别结果；

5、基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数；

6、融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号；

7、将所述融合信号输入至预设的vad识别模型，输出第二语音识别结果作为vad识别结果。

8、在其中一个实施例中，所述基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数，包括：

9、将所述振动信号输入至预设的振动信号模型，得到所述修正参数；其中，所述修正参数用于反映所述振动信号中每一帧信号与所述音频信号中的对应的音频帧为语音信号的概率；

10、基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果。

11、在其中一个实施例中，所述将所述振动信号输入至预设的振动信号模型，得到所述修正参数，包括：

12、对所振动信号进行降噪处理；

13、将处理后的振动信号输入至所述振动信号模型得到所述修正参数。

14、在其中一个实施例中，所述基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果，包括：

15、根据所述修正参数对所述初步识别结果中的每一帧音频帧的识别结果进行加权处理，得到所述第一语音识别结果。

16、在其中一个实施例中，所述基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果，包括：

17、根据所述修正参数对所述初步识别结果进行mask处理，得到所述第一语音识别结果。

18、在其中一个实施例中，所述融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号，包括：

19、将所述音频信号、所述第一语音识别结果及所述修正参数输入至预设的融合模型进行特征融合，得到所述融合信号。

20、在其中一个实施例中，所述融合模型为残差网络模型或卷积网络模型。

21、第二方面，本申请提供了一种vad识别装置，包括：

22、信号获取模块，用于获取音频信号和与所述音频信号同步的振动信号；

23、第一识别模块，用于利用预设的语音识别模型解析所述音频信号，得到初步识别结果；

24、修正模块，用于基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数；

25、融合模块，用于融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号；

26、第二识别模块，用于将所述融合信号输入至预设的vad识别模型，输出第二语音识别结果作为vad识别结果。

27、第三方面，本申请提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述任一项实施例所述vad识别方法的步骤。

28、第四方面，本申请提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

29、所述存储器中存储有计算机可读指令，所述一个或多个处理器执行时所述计算机可读指令时，执行如上述任一项实施例所述vad识别方法的步骤。

30、从以上技术方案可以看出，本申请实施例具有以下优点：

31、本申请提供的vad识别方法、装置、存储介质及计算机设备，获取音频信号和与其同步的振动信号，振动信号为发声源振动时触发的信号；利用语音识别模型对音频信号进行初步识别，得到初步识别结果，由于初步识别结果中可能会存在部分受环境噪声影响产生的错误识别，而振动信号完全基于发声源发声而产生，利用振动信号对初步识别结果进行修正能够有效抑制环境噪声的影响，进而得到第一语音识别结果及用于修正初步识别结果的修正参数，但由于发声源发声时并非所有发声都能引发采集设备所能采集的振动信号，因此第一语音识别结果中可能出现过渡抑制的情况，即对某些发声源的发声也进行了抑制，在此基础上引入初步识别之前的音频信号与第一语音识别结果及修正参数进行融合，通过音频信号对被修正参数错误修正而抑制的信息进行学习，以及对经过修正后得到的完全抑制了环境噪声的第一语音识别结果进行学习，得到融合信号，将融合信号输入至vad识别模型进行最终的识别输出第二语音识别结果作为音频信号的vad识别结果，既能降低环境噪声对识别准确性的影响，又能避免振动信号信息量不足导致的错误修正造成模型旁路的问题，提高vad识别的准确性。

技术特征：

1.一种vad识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的vad识别方法，其特征在于，所述基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数，包括：

3.根据权利要求2所述的vad识别方法，其特征在于，所述将所述振动信号输入至预设的振动信号模型，得到所述修正参数，包括：

4.根据权利要求2或3所述的vad识别方法，其特征在于，所述基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果，包括：

5.根据权利要求2或3所述的vad识别方法，其特征在于，所述基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果，包括：

6.根据权利要求1至3任一项所述的vad识别方法，其特征在于，所述融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号，包括：

7.根据权利要求6所述的vad识别方法，其特征在于，所述融合模型为残差网络模型或卷积网络模型。

8.一种vad识别装置，其特征在于，包括：

9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述vad识别方法的步骤。

10.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

技术总结本申请提供了一种VAD识别方法、装置、存储介质及计算机设备。该方法包括：获取音频信号和与音频信号同步的振动信号；利用预设的语音识别模型解析音频信号，得到初步识别结果；基于振动信号修正初步识别结果，得到第一语音识别结果及用于修正初步识别结果的修正参数；融合音频信号、第一语音识别结果及修正参数，得到融合信号；将融合信号输入至预设的VAD识别模型，输出第二语音识别结果作为VAD识别结果。本申请能够提高VAD识别的准确性。技术研发人员：冯霁,周耀杰受保护的技术使用者：广东粤港澳大湾区国家纳米科技创新研究院技术研发日：技术公布日：2024/3/11