技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种流式语音识别方法及系统、设备、存储介质与流程 > 正文

一种流式语音识别方法及系统、设备、存储介质与流程

国知局
2024-06-21 11:52:20

本技术实施例涉及语音识别技术，涉及但不限于一种流式语音识别方法及系统、设备、存储介质。

背景技术：

1、流式语音识别技术指是在接收到语音数据时，同步输出语音识别结果，能够大幅度减少语音识别的处理时间。然而，在流式语音识别应用场景中，接收到的语音数据往往包括多个用户的语音数据，且语音数据中可能会存在众多干扰信息。因此，不仅需要将多个用户的语音数据按照不同的用户进行准确区分，还需要将干扰信息剔除，否则无法准确的输出语音识别处理结果。

技术实现思路

1、有鉴于此，本技术实施例提供的一种流式语音识别方法及系统、设备、存储介质，本技术实施例提供的一种流式语音识别方法及系统、设备、存储介质是这样实现的：

2、本技术实施例提供的一种流式语音识别方法，所述方法包括：

3、获取待识别语音数据，并提取得到所述待识别语音数据对应的原始声纹特征，所述待识别语音数据包括至少两名用户的语音数据；

4、按照预设修正策略对所述原始声纹特征进行修正，得到目标声纹特征；

5、将所述目标声纹特征输入到目标声纹识别模型，得到目标声纹识别结果，所述目标声纹识别结果包括所述目标声纹特征与目标用户身份信息的对应关系，所述目标声纹识别模型是根据声纹特征训练数据以及与所述声纹特征训练数据对应的正确用户身份信息对预设声纹识别模型进行训练得到的；

6、根据所述目标声纹识别结果对所述待识别语音数据进行语音识别，得到目标流式语音识别结果。

7、本技术实施例中，通过对待识别语音数据的原始声纹特征进行修正，可以得到准确性更高的声纹特征，以提高目标声纹识别结果的准确性，从而提高了流式语音识别的准确性。

8、在一些实施例中，在所述获取待识别语音数据之后，以及在所述提取得到所述待识别语音数据对应的原始声纹特征之前，所述方法还包括：

9、对所述待识别语音数据进行预处理，得到预处理后的语音数据，所述预处理至少包括噪音回声去除、静音切除以及标准化音频；

10、按照预设分帧参数对所述预处理后的语音数据进行分帧处理，得到若干帧语音数据，所述预设分帧参数至少包括预设帧长以及预设重叠率；

11、所述提取得到所述待识别语音数据对应的原始声纹特征，包括：

12、按照预设特征提取算法对所述若干帧语音数据进行特征提取，得到所述原始声纹特征，所述原始声纹特征包括宽带声纹特征、窄带声纹特征、振幅声纹特征、等高线声纹特征、时间波谱声纹特征、断面声纹特征中的至少一种。

13、该实施例中，通过预处理可以降低待识别语音数据中的干扰信息，提高了后续声纹特征提取的准确性；以及通过预设分帧参数以及预设特征提取算法可以获得丰富的原始声纹特征，以提高后续声纹识别以及语音识别的准确性。

14、在一些实施例中，所述对所述原始声纹特征进行修正，得到目标声纹特征，包括：

15、对所述原始声纹特征进行可信声纹特征筛选，确定目标可信声纹特征，所述目标可信声纹特征是根据所述原始声纹特征之间的相似度确定的；

16、将所述目标可信声纹特征与预设声纹特征进行匹配，确定可靠声纹特征以及筛选声纹特征，所述可靠声纹特征以及所述筛选声纹特征是根据所述目标可信声纹特征与所述预设声纹特征的相似度确定的；

17、根据所述可靠声纹特征对所述筛选声纹特征进行修正，得到所述筛选声纹特征对应的修正声纹特征；

18、根据所述可靠声纹特征以及所述修正声纹特征，得到所述目标声纹特征。

19、该实施例中，根据声纹特征的相似度对原始声纹特征进行多次筛选以及修正优化，可以得到准确性更高的声纹特征，以提高后续声纹识别以及语音识别的准确性。

20、在一些实施例中，所述对所述原始声纹特征进行可信声纹特征筛选，确定目标可信声纹特征，包括：

21、按照第一预设相似度计算算法，计算得到每种原始声纹特征之间的第一相似度；

22、根据所述第一相似度以及预设偏差声纹判断策略，判断所述原始声纹特征中是否存在偏差声纹特征，所述偏差声纹特征中每种偏差声纹特征与第一可信声纹特征之间的相似度均小于第一预设相似度，所述第一可信声纹特征为所述原始声纹特征中除所述偏差声纹特征以外的原始声纹特征；

23、在所述原始声纹特征中不存在所述偏差声纹特征的情况下，将所述原始声纹特征确定为所述目标可信声纹特征。

24、该实施例中，通过预设偏差声纹判断策略可以快速、准确地确定原始声纹特征中是否存在偏差声纹特征，从而提高了后续声纹识别以及语音识别的准确性和效率。

25、在一些实施例中，在所述判断所述原始声纹特征中是否存在偏差声纹特征之后，所述方法还包括：

26、在所述原始声纹特征中存在所述偏差声纹特征的情况下，确定所述偏差声纹特征对应的偏差语音数据的数量，并获取所述若干帧语音数据的数量；

27、计算所述偏差语音数据的数量占所述若干帧语音数据的数量的比例，得到偏差语音比例；

28、判断所述偏差语音比例是否小于预设比例；

29、在所述偏差语音比例小于所述预设比例的情况下，按照第二预设相似度计算算法，计算得到所述每种偏差声纹特征与所述第一可信声纹特征之间的第二相似度的平均值；

30、将所述第二相似度的平均值中大于第二预设相似度对应的偏差声纹特征确定为第二可信声纹特征；

31、将所述第一可信声纹特征以及所述第二可信声纹特征确定为所述目标可信声纹特征。

32、该实施例中，在原始声纹特征中存在偏差声纹特征的情况下，通过对偏差声纹特征进行再次筛选提高了可信声纹特征的准确性和完整性，从而提高了后续声纹识别以及语音识别的准确性。

33、在一些实施例中，所述将所述目标可信声纹特征与预设声纹特征进行匹配，确定可靠声纹特征以及筛选声纹特征，包括：

34、按照第三预设相似度计算算法，计算得到每种目标可信声纹特征与每种预设声纹特征的第三相似度；

35、根据所述第三相似度以及预设可靠声纹判断策略，判断所述目标可信声纹特征中是否存在不可靠声纹特征，所述预设可靠声纹判断策略用于指示将所述第三相似度均小于第三预设相似度的可信声纹特征确定为所述不可靠声纹特征；

36、在所述目标可信声纹特征中存在所述不可靠声纹特征的情况下，确定所述可靠声纹特征以及所述不可靠声纹特征，所述可靠声纹特征为所述目标可信声纹特征中除所述不可靠声纹特征以外的可信声纹特征；

37、计算得到每种不可靠声纹特征对应的第三相似度的平均值，将所述第三相似度的平均值中大于第四预设相似度对应的不可靠声纹特征确定为所述筛选声纹特征。

38、该实施例中，通过对不可靠声纹特征进行再次筛选得到筛选声纹特征，可以得到准确性更高的声纹特征，提高了后续声纹识别以及语音识别的准确性。

39、在一些实施例中，所述根据所述可靠声纹特征对所述筛选声纹特征进行修正，得到所述筛选声纹特征对应的修正声纹特征，包括：

40、将所述筛选声纹特征与所述可靠声纹特征进行匹配，得到与所述筛选声纹特征一一对应的匹配声纹特征，所述匹配声纹特征为所述可靠声纹特征中与每种筛选声纹特征相似度最高的可靠声纹特征；

41、将所述匹配声纹特征与所述预设声纹特征进行匹配，得到与所述匹配声纹特征一一对应的标准声纹特征，所述标准声纹特征为所述预设声纹特征中与每种匹配声纹特征相似度最高的预设声纹特征，所述筛选声纹特征与所述标准声纹特征为一一对应关系；

42、按照第四预设相似度计算算法，计算得到所述每种筛选声纹特征以及与所述每种筛选声纹特征一一对应的标准声纹特征之间的第四相似度；

43、根据所述第四相似度、所述筛选声纹特征、所述标准声纹特征以及预设修正算法对所述筛选声纹特征进行修正，得到所述修正声纹特征。

44、该实施例中，根据标准声纹特征对筛选声纹特征进行修正，可以得到准确性更高的声纹特征，提高了后续声纹识别以及语音识别的准确性和完整性。

45、本技术实施例提供的一种流式语音识别系统，包括获取模块、特征提取模块、处理模块以及识别模块，其中：

46、所述获取模块，用于获取待识别语音数据，所述待识别语音数据包括至少两名用户的语音数据；

47、所述特征提取模块，用于提取得到所述待识别语音数据对应的原始声纹特征；

48、所述处理模块，用于按照预设修正策略对所述原始声纹特征进行修正，得到目标声纹特征；

49、所述识别模块，用于将所述目标声纹特征输入到目标声纹识别模型，得到目标声纹识别结果，所述目标声纹识别结果包括所述目标声纹特征与目标用户身份信息的对应关系，所述目标声纹识别模型是根据声纹特征训练数据以及与所述声纹特征训练数据对应的正确用户身份信息对预设声纹识别模型进行训练得到的；以及，根据所述目标声纹识别结果对所述待识别语音数据进行语音识别，得到目标流式语音识别结果。

50、本技术实施例提供的计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本技术实施例所述的方法。

51、本技术实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本技术实施例所述的方法。

52、本技术实施例提供的计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本技术实施例所述的方法。