技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种数据筛选标注方法、装置、电子设备和存储介质与流程 > 正文

一种数据筛选标注方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:46:58

本公开涉及计算机，尤其涉及一种数据筛选标注方法、装置、电子设备和存储介质。

背景技术：

1、语音识别技术是人工智能领域中一项重要的应用，它使得机器能够理解和识别人类语音，从而实现了人机交互的更高级形式。在日常生活中，语音识别技术广泛应用于各种场景，如智能助手、语音搜索、智能家居等，为用户提供了更加便捷和高效的服务。

2、随着大模型的广泛应用，语音识别技术得到了显著提升。大模型训练需要海量的相关数据，这便需要对大量的数据进行筛选和标注，以补充到语音识别大模型训练数据中。

3、现有的语音数据标注处理主要有两种方式。一种是人工标注处理，但这种方式时间成本较高，且只适用于小体量测试数据生成。另一种方式是利用现有的语音识别模型进行初步识别，但这种方式的识别效果不佳，准确率较低。

技术实现思路

1、本公开提出了一种数据筛选标注技术方案。

2、根据本公开的一方面，提供了一种数据筛选标注方法，包括：

3、获取待筛选的音频数据；

4、对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；

5、对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；

6、根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；

7、将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。

8、在一种可能的实现方式中，所述对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度，包括：

9、通过双向长短期记忆网络对所述音频数据进行基于语义的解码操作，得到时序的解码特征；

10、基于注意力机制，对时序的解码特征进行编解码，得到编码特征，并通过归一化指数函数得到编码特征对应的多个字符序列的概率分布；

11、基于所述概率分布，确定多个字符序列对应的语义置信度。

12、在一种可能的实现方式中，所述对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度，包括：

13、对所述音频数据进行基于发音音素的解码操作，得到每个解码位置的解码结果，并通过归一化指数函数得到解码结果对应的多个字符的后验概率；

14、根据所述后验概率，确定多个识别结果对应的语音置信度。

15、在一种可能的实现方式中，所述根据所述后验概率，确定多个识别结果对应的语音置信度，包括：

16、根据初始解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，分别添加到空白字符后面，得到多个目标序列，并基于所述后验概率得到各目标序列的分数；其中，所述字符包括解码位置处为空白字符的后验概率；

17、根据下一解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，添加到各所述目标序列后面，得到新的目标序列，并基于所述后验概率更新所述目标序列的分数；

18、针对后续的解码位置，迭代地执行对所述下一解码位置处的字符的步骤，以得到新的各目标序列和分数，直至满足迭代停止条件；

19、在迭代停止后，将各目标序列中空白字符之间连续的相同字符合并，并去掉空白字符，得到多个识别结果；

20、根据迭代停止后的目标序列的分数，确定与目标序列对应的识别结果的置信度。

21、在一种可能的实现方式中，所述根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果，包括：

22、确定所述待筛选的音频数据的应用场景；

23、根据所述应用场景，确定与所述应用场景对应的权重系数；

24、基于所述权重系数，对所述语义置信度和语音置信度进行加权融合，得到融合置信度；

25、将融合置信度满足置信度条件的识别结果，作为目标识别结果。

26、在一种可能的实现方式中，所述根据所述应用场景，确定与所述应用场景对应的权重系数，包括：

27、在基于关键词识别的应用场景中，确定语音置信度的权重系数高于语义置信度的权重系数；所述基于关键词识别的应用场景包括：基于识别到的关键词执行相关指令的场景；

28、在基于语义理解的应用场景中，确定语义置信度的权重系数高于语音置信度的权重系数；所述基于语义理解的应用场景包括：准确识别说话人表达的语义的场景。

29、在一种可能的实现方式中，所述根据所述应用场景，确定与所述应用场景对应的权重系数，包括：

30、在所述音频数据的应用场景为口语化场景的情况下，确定所述语义置信度的权重系数大于所述语音置信度的权重系数；

31、在所述音频数据的应用场景为发音标准的正式发言场景的情况下，确定所述语音置信度的权重系数大于所述语义置信度的权重系数。

32、在一种可能的实现方式中，所述权重系数为预先训练得到的，所述权重系数的确定过程包括：

33、针对目标应用场景，利用目标场景下预先标注的样本音频数据，确定多个候选权重值对应的语音识别准确率；

34、将识别准确率最高的权重值，作为所述目标应用场景下的权重系数。

35、根据本公开的一方面，提供了一种数据筛选标注装置，包括：

36、音频数据获取模块，用于获取待筛选的音频数据；

37、第一语音识别模块，用于对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；

38、第二语音识别模块，用于对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；

39、目标识别结果确定模块，用于根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；

40、音频数据筛选及标注模块，用于将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。

41、在一种可能的实现方式中，所述第一语音识别模块，用于：

42、通过双向长短期记忆网络对所述音频数据进行基于语义的解码操作，得到时序的解码特征；

43、基于注意力机制，对时序的解码特征进行编解码，得到编码特征，并通过归一化指数函数得到编码特征对应的多个字符序列的概率分布；

44、基于所述概率分布，确定多个字符序列对应的语义置信度。

45、在一种可能的实现方式中，所述第二语音识别模块，用于：

46、对所述音频数据进行基于发音音素的解码操作，得到每个解码位置的解码结果，并通过归一化指数函数得到解码结果对应的多个字符的后验概率；

47、根据所述后验概率，确定多个识别结果对应的语音置信度。

48、在一种可能的实现方式中，所述第二语音识别模块，用于：

49、根据初始解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，分别添加到空白字符后面，得到多个目标序列，并基于所述后验概率得到各目标序列的分数；其中，所述字符包括解码位置处为空白字符的后验概率；

50、根据下一解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，添加到各所述目标序列后面，得到新的目标序列，并基于所述后验概率更新所述目标序列的分数；

51、针对后续的解码位置，迭代地执行对所述下一解码位置处的字符的步骤，以得到新的各目标序列和分数，直至满足迭代停止条件；

52、在迭代停止后，将各目标序列中空白字符之间连续的相同字符合并，并去掉空白字符，得到多个识别结果；

53、根据迭代停止后的目标序列的分数，确定与目标序列对应的识别结果的置信度。

54、在一种可能的实现方式中，所述目标识别结果确定模块，用于：

55、确定所述待筛选的音频数据的应用场景；

56、根据所述应用场景，确定与所述应用场景对应的权重系数；

57、基于所述权重系数，对所述语义置信度和语音置信度进行加权融合，得到融合置信度；

58、将融合置信度满足置信度条件的识别结果，作为目标识别结果。

59、在一种可能的实现方式中，所述目标识别结果确定模块，用于：

60、在基于关键词识别的应用场景中，确定语音置信度的权重系数高于语义置信度的权重系数；所述基于关键词识别的应用场景包括：基于识别到的关键词执行相关指令的场景；

61、在基于语义理解的应用场景中，确定语义置信度的权重系数高于语音置信度的权重系数；所述基于语义理解的应用场景包括：准确识别说话人表达的语义的场景。

62、在一种可能的实现方式中，所述目标识别结果确定模块，用于：

63、在所述音频数据的应用场景为口语化场景的情况下，确定所述语义置信度的权重系数大于所述语音置信度的权重系数；

64、在所述音频数据的应用场景为发音标准的正式发言场景的情况下，确定所述语音置信度的权重系数大于所述语义置信度的权重系数。

65、在一种可能的实现方式中，所述权重系数为预先训练得到的，所述权重系数的确定模块用于：针对目标应用场景，利用目标场景下预先标注的样本音频数据，确定多个候选权重值对应的语音识别准确率；将识别准确率最高的权重值，作为所述目标应用场景下的权重系数。

66、根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

67、根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

68、在本公开实施例中，在获取待筛选的音频数据后；对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。由此，结合了语义和发音音素两种识别方式，以确定满足置信度条件的目标识别结果，通过基于语义的第一语音识别，理解音频内容的含义，得到语义置信度，而通过基于发音音素的第二语音识别，解析音频中的发音细节，得到语音置信度，通过结合语义置信度和语音置信度，可以更全面地评估每个识别结果的可信度，提高了筛选出的目标音频数据的质量，以及目标音频数据的标签的准确率。

69、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。