技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、系统、设备及存储介质与流程 > 正文

语音识别方法、系统、设备及存储介质与流程

国知局
2024-06-21 11:49:48

本申请涉及语音识别，更具体的说，是涉及一种语音识别方法、系统、设备及存储介质。

背景技术：

1、语音识别技术发展了几十年，相关的技术也在不断更新迭代，从最早采用模板匹配、动态时间规整(dtw)等技术的简单语音识别，到基于混合高斯-隐马尔可夫模型(gmm-hmm)技术的连续语音识别，以及随着算力和海量数据的积累，采用深度神经网络学习的技术，成为当下主流的技术方案。语音识别的建模单元从最小粒度的音素逐渐过渡到基于字或者子词的建模单元，从而实现了端到端的语音识别。

2、端到端的语音识别技术，通过输入语音的声学特征，经过一系列神经网络变换，最终解码输出文本识别结果，完成语音到文本的识别。传统的端到端语音识别模型所得到的文本识别结果一般是无标点的纯文本。为了增加文本的可读性，通常会在端到端语音识别模型之后串联后处理模块，如图1所示的标点预测模块。通过标点预测模块对语音识别模型输出的识别文本进行标点预测，得到包含标点符号的识别文本。标点预测模块以纯文本作为输入，经过神经网络变换预测输出带标点符号的识别文本。为了降低时延，标点预测模型的结构相对简单，参数量较少，且由于只能够参考纯文本信息进行标点预测，因而对标点符号的预测准确性不高。

技术实现思路

1、鉴于上述问题，提出了本申请以便提供一种语音识别方法、系统、设备及存储介质，以解决现有采用先识别文本，再预测标点的串行处理方案所存在的系统时延较高、标点预测准确率低的问题。具体方案如下：

2、第一方面，提供了一种语音识别方法，包括：

3、获取输入语音的声学特征；

4、利用语音识别模型对所述声学特征进行编码，并基于声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布，基于所述每个时刻的第一标签概率分布，得到带有标点符号的识别文本；

5、其中，所述第一标签包括各种字符标签及各种标点符号标签，所述语音识别模型在训练阶段的建模单元包括字符和标点符号。

6、优选地，所述语音识别模型包括声学编码器和声学解码器；

7、利用语音识别模型对所述声学特征进行编码，并基于声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布的过程，包括：

8、利用所述声学编码器对所述声学特征进行编码，得到声学特征编码向量；

9、利用所述声学解码器基于所述声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布。

10、优选地，基于所述每个时刻的第一标签概率分布，得到带有标点符号的识别文本的过程，包括：

11、在每个时刻的第一标签概率分布中选取概率值最大的第一标签作为对应时刻的解码结果，由各个时刻的解码结果组成所述输入语音对应的识别文本。

12、优选地，所述语音识别模型包括搜索网络模块，则基于所述每个时刻的第一标签概率分布，得到带有标点符号的识别文本的过程，包括：

13、将所述每个时刻的第一标签概率分布送入所述搜索网络模块，结合预配置的语言模型解码得到所述输入语音对应的识别文本，其中，所述语言模型包含标点符号。

14、优选地，所述语音识别模型的训练过程，包括：

15、获取训练数据，所述训练数据包括训练语音的声学特征以及第一标签，所述第一标签包括所述训练语音对应的携带有标点符号的识别文本；

16、利用语音识别模型对所述训练语音的声学特征进行编码，并基于声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布；

17、根据所述每个时刻的第一标签概率分布和所述第一标签计算第一损失函数的值；

18、根据总损失函数的值更新所述语音识别模型的参数，所述总损失函数的值包括所述第一损失函数的值。

19、优选地，利用语音识别模型对所述训练语音的声学特征进行编码，并基于声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布的过程，包括：

20、利用声学编码器对所述训练语音的声学特征进行编码，得到声学特征编码向量；

21、利用声学解码器基于所述声学特征编码向量及历史解码结果进行解码，解码结果经过第一softmax层输出得到每个时刻的第一标签概率分布。

22、优选地，所述训练数据还包括所述训练语音的第二标签，所述第二标签用于标记所述训练语音的识别文本中各建模单元属于标点符号还是非标点符号；

23、所述语音识别模型的训练过程，还包括：

24、将所述声学解码器的解码结果送入第二softmax层，输出得到每个时刻的第二标签概率分布；

25、根据所述每个时刻的第二标签概率分布和所述第二标签计算第二损失函数的值；

26、所述总损失函数的值还包括所述第二损失函数的值。

27、第二方面，提供了一种语音识别系统，包括：

28、声学特征获取模块，用于获取输入语音的声学特征；

29、语音识别模型调用模块，用于利用语音识别模型对所述声学特征进行编码，并基于声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布，基于所述每个时刻的第一标签概率分布，得到带有标点符号的识别文本；

30、其中，所述第一标签包括各种字符标签及各种标点符号标签，所述语音识别模型在训练阶段的建模单元包括字符和标点符号。

31、第三方面，提供了一种语音识别设备，包括：存储器和处理器；

32、所述存储器，用于存储程序；

33、所述处理器，用于执行所述程序，实现如前所述的语音识别方法的各个步骤。

34、第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的语音识别方法的各个步骤。

35、借由上述技术方案，本申请的语音识别模型不同于现有的串行处理方案，在训练阶段的建模单元同时包含字符和标点符号，也即语音识别模型以预测携带有标点符号的识别文本作为训练任务进行训练，如此，对于输入语音的声学特征，可以利用语音识别模型进行编码，并基于声学特征编码向量和历史解码结果，解码得到每个时刻的第一标签概率分布，基于每个时刻的第一标签概率分布，直接得到带有标点符号的识别文本，实现了标点符号的预测和文本识别的并行处理，无需进行标点预测的后处理，减少了系统处理流程，降低了系统整体的时延。

36、此外，相比于现有标点预测模块仅参考纯文本信息进行标点预测，本申请语音识别模型在解码时可以同时参考声学信息和历史解码的文本信息，也即参考信息更加丰富，从而提升了标点符号的预测准确率。

37、进一步，借助语音识别模型的大容量建模能力(相比于现有后处理的标点预测模块的网络参数量更大)，可以进一步提升标点符号的预测准确率。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括声学编码器和声学解码器；

3.根据权利要求1所述的方法，其特征在于，基于所述每个时刻的第一标签概率分布，得到带有标点符号的识别文本的过程，包括：

4.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括搜索网络模块，则基于所述每个时刻的第一标签概率分布，得到带有标点符号的识别文本的过程，包括：

5.根据权利要求1所述的方法，其特征在于，所述语音识别模型的训练过程，包括：

6.根据权利要求5所述的方法，其特征在于，利用语音识别模型对所述训练语音的声学特征进行编码，并基于声学特征编码向量及历史解码结果，解码得到每个时刻的第一标签概率分布的过程，包括：

7.根据权利要求6所述的方法，其特征在于，所述训练数据还包括所述训练语音的第二标签，所述第二标签用于标记所述训练语音的识别文本中各建模单元属于标点符号还是非标点符号；

8.一种语音识别系统，其特征在于，包括：

9.一种语音识别设备，其特征在于，包括：存储器和处理器；

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～7中任一项所述的语音识别方法的各个步骤。

技术总结本申请公开了一种语音识别方法、系统、设备及存储介质，本申请语音识别模型在训练阶段的建模单元同时包含字符和标点符号，对于输入语音的声学特征，可以利用语音识别模型进行编码，并基于声学特征编码向量和历史解码结果，解码得到每个时刻的第一标签概率分布，基于每个时刻的第一标签概率分布，直接得到带有标点符号的识别文本，实现了标点符号的预测和文本识别的并行处理，无需进行标点预测的后处理，降低了系统时延。语音识别模型在解码时可以同时参考声学信息和历史解码的文本信息，从而提升了标点符号的预测准确率。借助语音识别模型的大容量建模能力，可以进一步提升标点符号的预测准确率。技术研发人员：周荣,李永超,马志强受保护的技术使用者：西安讯飞超脑信息科技有限公司技术研发日：技术公布日：2024/5/8