技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音识别的方法、装置、设备和存储介质与流程 > 正文

用于语音识别的方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:56:00

本公开的示例实施例总体涉及计算机，特别地涉及用于语音识别的方法、装置、设备和计算机可读存储介质。

背景技术：

1、随着互联网技术的发展，越来越多的应用或平台等均提供自然语言处理功能，给广大用户带来了诸多便利。具有自然语言处理功能的应用或平台可以基于经训练的机器学习模型向用户提供自然语言处理服务。自动语音识别(asr)任务是自然语言处理任务中的重要任务。期望能够在保证语音识别的效率的同时，提高语音识别结果的准确性。

技术实现思路

1、在本公开的第一方面，提供了一种语音识别的方法。该方法包括：利用语音识别编码器提取目标音频的一组声学特征表示，每个声学特征表示对应于目标文本序列中的一个文本单元，目标文本序列要被确定为目标音频的语音识别结果；利用说话人识别模型提取目标音频的一组说话人特征表示，每个说话人特征表示对应于目标文本序列中的一个文本单元；基于一组说话人特征表示中各个说话人特征表示之间的相似度，确定目标文本序列中各个文本单元对的至少一个说话人相似度，每个说话人相似度指示各个文本单元对属于相同说话人的概率；以及利用语音识别解码器，至少基于目标文本序列中已预测的文本单元、一组声学特征表示以及至少一个说话人相似度，确定目标文本序列中当前要预测的目标文本单元。

2、在本公开的第二方面，提供了一种用于语音识别的装置。该装置包括：第一特征提取模块，被配置为利用语音识别编码器提取目标音频的一组声学特征表示，每个声学特征表示对应于目标文本序列中的一个文本单元，目标文本序列要被确定为目标音频的语音识别结果；第二特征提取模块，被配置为利用说话人识别模型提取目标音频的一组说话人特征表示，每个说话人特征表示对应于目标文本序列中的一个文本单元；相似度确定模块，被配置为基于一组说话人特征表示中各个说话人特征表示之间的相似度，确定目标文本序列中各个文本单元对的至少一个说话人相似度，每个说话人相似度指示各个文本单元对属于相同说话人的概率；以及结果确定模块，被配置为利用语音识别解码器，至少基于目标文本序列中已预测的文本单元、一组声学特征表示以及至少一个说话人相似度，确定目标文本序列中当前要预测的目标文本单元。

3、在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。该介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面的方法。

5、应当理解，该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征：

1.一种语音识别的方法，包括：

2.根据权利要求1所述的方法，其中确定所述目标文本序列中当前要预测的目标文本单元包括：

3.根据权利要求1所述的方法，其中确定所述目标文本序列中当前要预测的目标文本单元包括：

4.根据权利要求3所述方法，其中基于所述至少一个说话人相似度调整所述语音识别解码器中的自注意力权重包括：

5.根据权利要求4所述的方法，其中所述语音识别解码器包括至少一个自注意力模块，被配置为确定所述自注意力权重；

6.根据权利要求1所述的方法，其中所述说话人识别模型包括说话人编码器和说话人解码器，并且利用说话人识别模型提取所述目标音频的所述一组说话人特征表示包括：

7.根据权利要求6所述的方法，其中所述说话人识别模型包括说话人编码器和说话人解码器，并且所述方法还包括：

8.根据权利要求1至7中任一所述的方法，其中所述语音识别编码器和所述语音识别解码器属于语音识别模型，所述语音识别模型和所述说话人识别模型被联合训练。

9.根据权利要求8所述的方法，其中所述联合训练包括：

10.根据权利要求9所述的方法，其中每个掩码标签序列包括序列起始标签，所述多个掩码标签序列中的序列起始标签不同。

11.一种用于语音识别的装置，包括：

12.一种电子设备，包括：

13.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。

技术总结本公开提供了用于语音识别的方法、装置、设备和存储介质。该方法包括：利用语音识别编码器提取目标音频的一组声学特征表示，每个声学特征表示对应于目标文本序列中的一个文本单元，目标文本序列要被确定为目标音频的语音识别结果；利用说话人识别模型提取目标音频的一组说话人特征表示；基于一组说话人特征表示中各个说话人特征表示之间的相似度，确定目标文本序列中各个文本单元对的至少一个说话人相似度；以及利用语音识别解码器，至少基于目标文本序列中已预测的文本单元、一组声学特征表示以及至少一个说话人相似度，确定目标文本序列中当前要预测的目标文本单元。由此，可以提升语音识别的准确性、区分不同说话人的语音识别结果。技术研发人员：范志赟,董林昊,张骏受保护的技术使用者：北京有竹居网络技术有限公司技术研发日：技术公布日：2024/6/2