技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种指定场景的语音识别方法、装置、设备及介质与流程 > 正文

一种指定场景的语音识别方法、装置、设备及介质与流程

国知局
2024-06-21 11:44:12

本技术实施例涉及语音识别，具体涉及一种指定场景的语音识别方法、装置、设备及介质。

背景技术：

1、语音识别是一种涵盖了声学与语言学、数学与统计学等学科的技术，是人机自然交互技术中的关键环节。在实际应用中需要通过采集大量语音，并对应标注成文本以构建模型的训练样本。通过训练样本对语音识别模型进行训练，使模型具备将语音数据转换成对应文本的能力。

2、然而在如医疗、金融等指定场景的语料通常私密性较高，获取难度较大。这导致指定场景的训练样本数量稀少。相关技术中多直接采用少量样本进行训练，或采用如裁剪、旋转、调音、加噪等传统的方式对样本进行扩充后训练，通过上述方式训练的语音识别模型多存在欠拟合的问题，对指定场景的专用词汇识别能力较差。

技术实现思路

1、本技术实施例提供一种指定场景的语音识别方法、装置、设备及介质，用于基于预设的指定场景专用词汇限制模型的输出，使语音识别模型具备识别指定场景的专用词汇的能力。

2、为达到上述目的，本技术实施例的技术方案是这样实现的：

3、第一方面，本技术实施例提供了一种指定场景的语音识别方法，所述方法包括：

4、获取待处理音频，确定所述待处理音频的语音特征的语音特征；

5、对所述语音特征进行分词处理得到所述语音特征的分词特征序列；并对各所述分词特征序列进行特征识别，得到每一分词特征序列的多个特征识别结果和各所述特征识别结果的置信度；

6、针对每一分词特征序列，基于预设的指定场景专用词汇和各所述特征识别结果确定所述分词特征序列的最优分词结果；并根据所述置信度从各所述特征识别结果中确定第一数量的备选分词结果；

7、根据各所述分词特征序列的最优分词结果和备选分词结果确定所述待处理音频的语音识别结果。

8、在一些可能的实施例中，所述获取待处理音频的语音特征，包括：

9、对所述待处理音频进行数字化处理得到表征音频特征的待处理数组；

10、基于所述待处理数组确定所述待处理音频的似然概率，并根据所述似然概率确定所述待处理音频中的语音特征。

11、在一些可能的实施例中，所述基于所述待处理数组确定所述待处理音频的似然概率，包括：

12、通过边界概率算法确定所述待处理数组的表征语音特征的第一期望和表征噪音特征的第二期望；

13、根据所述第一期望和所述第二期望确定所述似然概率。

14、在一些可能的实施例中，所述基于预设的指定场景专用词汇和各所述特征识别结果确定所述分词特征序列的最优分词结果，包括：

15、检测各所述特征识别结果中是否存在与任一所述指定场景专用词汇相同的待处理识别结果；

16、若存在，则将置信度最高的待处理识别结果作为所述最优分词结果；否则，将置信度最高的特征识别结果作为所述最优分词结果。

17、在一些可能的实施例中，所述将置信度最高的待处理识别结果作为所述最优分词结果之前，所述方法还包括：

18、确定所述置信度最高的待处理识别结果的置信度大于置信度阈值；

19、所述方法还包括：

20、若所述置信度最高的待处理识别结果的置信度未大于所述置信度阈值，则将所述置信度最高的特征识别结果作为所述最优分词结果。

21、在一些可能的实施例中，所述根据各所述分词特征序列的最优分词结果和备选分词结果确定所述语音特征的语音识别结果，包括：

22、根据各所述分词特征序列在所述语音特征中的排序对各所述最优分词结果进行拼接，得到包含全部最优分词结果的目标拼接特征；并，

23、根据所述排序对各所述备选分词结果进行拼接，得到待选拼接特征；其中，所述待选拼接特征中包含每一分词特征序列对应的备选分词结果。

24、根据所述目标拼接特征和所述待选拼接特征确定所述语音识别结果。

25、在一些可能的实施例中，所述根据所述目标拼接特征和所述待选拼接特征确定所述语音识别结果，包括：

26、根据各所述待选拼接特征包含的各备选分词结果的置信度，从各所述待选拼接特征中确定第二数量的目标拼接特征；

27、若所述目标拼接特征与任一目标拼接特征的特征相似度大于相似度阈值，则根据所述目标拼接特征确定所述语音识别结果；

28、否则，根据各所述备选分词结果的置信度确定各所述目标拼接特征的综合置信度，并根据所述综合置信度最高的目标拼接特征确定所述语音识别结果。

29、第二方面，本技术实施例提供了一种指定场景的语音识别装置，所述装置包括：

30、特征获取模块，被配置为执行获取待处理音频，确定所述待处理音频的语音特征的语音特征；

31、特征识别模块，被配置为执行对所述语音特征进行分词处理得到所述语音特征的分词特征序列；并对各所述分词特征序列进行特征识别，得到每一分词特征序列的多个特征识别结果和各所述特征识别结果的置信度；

32、分词处理模块，被配置为执行针对每一分词特征序列，基于预设的指定场景专用词汇和各所述特征识别结果确定所述分词特征序列的最优分词结果；并根据所述置信度从各所述特征识别结果中确定第一数量的备选分词结果；

33、语音识别模块，被配置为执行根据各所述分词特征序列的最优分词结果和备选分词结果确定所述待处理音频的语音识别结果。

34、在一些可能的实施例中，执行所述获取待处理音频的语音特征，所述特征获取模块被配置为：

35、对所述待处理音频进行数字化处理得到表征音频特征的待处理数组；

36、基于所述待处理数组确定所述待处理音频的似然概率，并根据所述似然概率确定所述待处理音频中的语音特征。

37、在一些可能的实施例中，执行所述基于所述待处理数组确定所述待处理音频的似然概率，所述特征获取模块被配置为：

38、通过边界概率算法确定所述待处理数组的表征语音特征的第一期望和表征噪音特征的第二期望；

39、根据所述第一期望和所述第二期望确定所述似然概率。

40、在一些可能的实施例中，执行所述基于预设的指定场景专用词汇和各所述特征识别结果确定所述分词特征序列的最优分词结果，所述分词处理模块被配置为：

41、检测各所述特征识别结果中是否存在与任一所述指定场景专用词汇相同的待处理识别结果；

42、若存在，则将置信度最高的待处理识别结果作为所述最优分词结果；否则，将置信度最高的特征识别结果作为所述最优分词结果。

43、在一些可能的实施例中，执行所述将置信度最高的待处理识别结果作为所述最优分词结果之前，所述分词处理模块还被配置为：

44、确定所述置信度最高的待处理识别结果的置信度大于置信度阈值；

45、所述分词处理模块还被配置为：

46、若所述置信度最高的待处理识别结果的置信度未大于所述置信度阈值，则将所述置信度最高的特征识别结果作为所述最优分词结果。

47、在一些可能的实施例中，执行所述根据各所述分词特征序列的最优分词结果和备选分词结果确定所述语音特征的语音识别结果，所述语音识别模块被配置为：

48、根据各所述分词特征序列在所述语音特征中的排序对各所述最优分词结果进行拼接，得到包含全部最优分词结果的目标拼接特征；并，

49、根据所述排序对各所述备选分词结果进行拼接，得到待选拼接特征；其中，所述待选拼接特征中包含每一分词特征序列对应的备选分词结果。

50、根据所述目标拼接特征和所述待选拼接特征确定所述语音识别结果。

51、在一些可能的实施例中，执行所述根据所述目标拼接特征和所述待选拼接特征确定所述语音识别结果，所述语音识别模块被配置为：

52、根据各所述待选拼接特征包含的各备选分词结果的置信度，从各所述待选拼接特征中确定第二数量的目标拼接特征；

53、若所述目标拼接特征与任一目标拼接特征的特征相似度大于相似度阈值，则根据所述目标拼接特征确定所述语音识别结果；

54、否则，根据各所述备选分词结果的置信度确定各所述目标拼接特征的综合置信度，并根据所述综合置信度最高的目标拼接特征确定所述语音识别结果。

55、第三方面，本技术实施例提供一种电子设备，包括：

56、存储器，用于存储程序指令；

57、处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。

58、第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行第一方面中任一项所述的方法。

59、第五方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行第一方面任一项所述的方法。

60、本技术实施例中，通过对待处理音频的语音特征进行分词处理得到多个分词特征序列，并根据已训练的语音识别模型对各分词特征序列进行特征识别，得到每一分词特征序列的多个特征识别结果。进一步的，基于预设的指定场景专用词汇从各分词特征序列对应的多个特征识别结果中选出最优分词结果，并根据各特征识别结果的置信度确定备选分词结果。上述流程通过指定场景专用词汇对各分词特征序列的最优分词结果进行调整，并根据最优分词结果和备选分词结果确定待处理音频的语音识别结果，使模型具备识别指定场景的专用词汇的能力。

61、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。