技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于自动语音识别的多语言重新评分模型的制作方法 > 正文

用于自动语音识别的多语言重新评分模型的制作方法

国知局
2024-06-21 10:38:50

本公开涉及用于自动语音识别的多语言重新评分模型。

背景技术：

1、自动语音识别(asr)系统提供了一种通常用于移动设备和其它设备的技术。一般来说，asr系统试图提供用户对移动设备所说内容的准确转录。更具体地说，asr系统会生成多个候选转录，并输出最有可能与语音输入相匹配的候选转录。在某些情况下，asr系统会输出与用户实际所说内容不匹配的不准确转录。在这种情况下，asr系统可以对多个候选转录进行重新评分，然后输出与语音输入相匹配的准确转录。然而，重新评分的一个挑战是，asr系统依赖语音输入的语言信息来准确地重新评分多个候选转录。因此，asr系统在多语言语音环境中执行重新评分往往非常麻烦。

技术实现思路

1、本公开的方面提供了一种计算机实现的方法，该方法在数据处理硬件上执行时使得数据处理硬件进行使用多语言重新评分模型进行自动语音识别的操作。该操作包括接收从与话语对应的音频数据提取的声学帧的序列。在第一通道期间，操作包括使用多语言语音识别模型处理声学帧的序列以为话语生成n个候选假设。在第二通道期间，对于n个候选假设中的每个候选假设，该方法包括使用神经甲骨文搜索(nos)模型，基于声学帧的序列和对应的候选假设生成相应的未归一化似然得分；使用外部语言模型生成相应的外部语言模型得分；生成独立得分，独立得分对在第一通道期间生成的对应的候选假设的先验统计进行建模；以及基于未归一化似然得分、外部语言模型得分和独立得分，为候选假设生成相应的总得分。操作还包括从n个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录。

2、本公开的实施方案可以包括以下一个或多个可选特征。在一些实施方案中，n个候选假设中的每个候选假设包括单词或子单词标签的相应的序列。这里，每个单词或子单词标签由相应的嵌入向量表示。外部语言模型是在纯文本数据上训练的。在某些示例中，nos模型包括语言特定的nos模型。在这些示例中，操作进一步包括接收指示话语的语言的语言标识符，以及从多个语言特定的nos模型中选择语言特定的nos模型，每个语言特定的nos模型是在不同的相应语言上训练的。

3、可选地，nos模型可以包括多语言nos模型。在一些实施方案中，外部语言模型包括语言特定的外部语言模型。在这些实施方式中，操作进一步包括接收指示话语的语言的语言标识符，以及从多个语言特定的外部语言模型中选择语言特定的外部语言模型，每个语言特定的外部语言模型是在不同的相应语言上训练的。nos模型可包括两个单向长短期记忆(lstm)层。在一些示例中，语音识别模型包括编码器-解码器架构，编码器-解码器架构包括具有多个conformer层的conformer编码器和具有两个lstm层的lstm解码器。

4、本公开的另一方面提供了一种系统，该系统包括数据处理硬件和存储指令的存储硬件，指令在数据处理硬件上执行时会导致数据处理硬件执行操作。操作包括接收从与话语对应的音频数据提取的声学帧的序列。在第一通道期间，操作包括使用多语言语音识别模型(200)处理声学帧的序列以为话语生成n个候选假设。在第二通道期间，对于n个候选假设中的每个候选假设，该方法包括使用神经甲骨文搜索(nos)模型，基于声学帧的序列和对应的候选假设生成相应的未归一化似然得分；使用外部语言模型生成相应的外部语言模型得分；生成独立得分，独立得分对在第一通道期间生成的对应的候选假设的先验统计进行建模；以及基于未归一化似然得分、外部语言模型得分和独立得分，为候选假设生成相应的总得分。操作还包括从n个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录。

5、本公开的实施方案可以包括以下一个或多个可选特征。在一些实施方案中，n个候选假设中的每个候选假设包括单词或子单词标签的相应的序列。这里，每个单词或子单词标签由相应的嵌入向量表示。外部语言模型是在纯文本数据上训练的。在某些示例中，nos模型包括语言特定的nos模型。在这些示例中，操作进一步包括接收指示话语的语言的语言标识符，从多个语言特定的nos模型中选择语言特定的nos模型，每个语言特定的nos模型是在不同的相应语言上训练的。

6、可选地，nos模型可以包括多语言nos模型。在一些实施方案中，外部语言模型包括语言特定的外部语言模型。在这些实现中，操作进一步包括接收指示话语的语言的语言标识符，以及从多个语言特定的外部语言模型中选择语言特定的外部语言模型，每个语言特定的外部语言模型是在不同的相应语言上训练的。nos模型可以包括两个单向长短期记忆(lstm)层。在一些示例中，语音识别模型包括编码器-解码器架构，编码器-解码器架构包括具有多个conformer层的conformer编码器和具有两个lstm层的lstm解码器。

7、本公开的一个或多个实现的细节在附图和以下描述中阐述。从说明书和附图以及从权利要求书中，其它方面，特征和优点将是显而易见的。

技术特征：

1.一种计算机实施的方法(400)，其特征在于，当所述计算机实施的方法(400)在数据处理硬件(510)上执行时使得所述数据处理硬件(510)进行操作，所述操作包括：

2.根据权利要求1所述的方法(400)，其特征在于，所述n个候选假设(204)中的每个候选假设(204)包括单词或子单词标签的相应的序列，每个单词或子单词标签由相应的嵌入向量表示。

3.根据权利要求1或2所述的方法(400)，其特征在于，所述外部语言模型(310)是在纯文本数据上训练的。

4.根据权利要求1-3中任一项所述的方法(400)，其特征在于，所述nos模型(320)包括语言特定的nos模型(320s)。

5.根据权利要求4所述的方法(400)，其特征在于，所述操作进一步包括：

6.根据权利要求1-3中任一项所述的方法(400)，其特征在于，所述nos模型(320)包括多语言nos模型(320m)。

7.根据权利要求1-6中任一项所述的方法(400)，其特征在于，所述外部语言模型(310)包括语言特定的外部语言模型(310)。

8.根据权利要求7所述的方法(400)，其特征在于，所述操作进一步包括：

9.权利要求1-8中任一项所述的方法(400)，其特征在于，所述nos模型(320)包括两个单向长短期记忆(lstm)层。

10.权利要求1-9中任一项所述的方法(400)，其特征在于，所述语音识别模型(200)包括编码器-解码器架构，所述编码器-解码器架构包括具有多个conformer层的conformer编码器和具有两个lstm层的lstm解码器。

11.一种系统(500)，其特征在于，包括：

12.根据权利要求11所述的系统(500)，其特征在于，所述n个候选假设(204)中的每个候选假设(204)包括单词或子单词标签的相应的序列，每个单词或子单词标签由相应的嵌入向量表示。

13.根据权利要求11或12所述的系统(500)，其特征在于，所述外部语言模型(310)是在纯文本数据上训练的。

14.权利要求11-13中任一项所述的系统(500)，其特征在于，所述nos模型(320)包括语言特定的nos模型(320s)。

15.根据权利要求14所述的系统(500)，其特征在于，所述操作进一步包括：

16.根据权利要求11-13中任一项所述的系统(500)，其特征在于，所述nos模型(320)包括多语言nos模型(320m)。

17.根据权利要求11-16中任一项所述的系统(500)，其特征在于，所述外部语言模型(310)包括语言特定的外部语言模型(310)。

18.根据权利要求17所述的系统(500)，其特征在于，所述操作进一步包括：

19.根据权利要求11-18中任一项所述的系统(500)，其特征在于，所述nos模型(320)包括两个单向长短期记忆(lstm)层。

20.根据权利要求11-19中任一项所述的系统(500)，其特征在于，所述语音识别模型(200)包括编码器-解码器架构，所述编码器-解码器架构包括具有多个conformer层的conformer编码器和具有两个lstm层的lstm解码器。

技术总结一种方法(400)包括接收从与话语(106)对应的音频数据提取的声学帧的序列(110)。在第一通道期间(301)，所述方法包括处理声学帧的序列以生成所述话语的N个候选假设(204)。在第二通道期间(302)，并且对于每个候选假设，所述方法包括：生成相应的未归一化似然得分(325)；生成相应的外部语言模型得分(315)；生成对对应候选假设的先验统计进行建模的独立得分(205)；以及基于未归一化似然得分、外部语言模型得分和独立得分为候选假设生成相应的总得分(355)。所述方法还包括从N个候选假设中选择相应的总得分最高的候选假设作为话语的最终转录(120)。技术研发人员：尼拉杰·高尔,陈同舟,伊赫桑·瓦兰尼,布瓦那·拉马巴德兰,帕里莎·哈哈尼,佩德罗·J·莫雷诺门希瓦尔受保护的技术使用者：谷歌有限责任公司技术研发日：技术公布日：2024/1/15