技术新讯 > 乐器声学设备的制造及制作,分析技术 > 使用LM感知MWER训练的罕见词语辨识的制作方法 > 正文

使用LM感知MWER训练的罕见词语辨识的制作方法

国知局
2024-12-06 13:10:37

本公开涉及用于改进罕见词语辨识的语音辨识模型。

背景技术：

1、自动语音辨识(asr)是越来越多地在移动装置和其他装置中使用的重要技术。一般来说，asr系统可以低时延(例如，在人员说话与转录出现之间仅有短暂的延迟)提供人员所说内容的准确转录。

技术实现思路

1、本公开的一个方面提供了一种用于训练语音辨识模型以使用语言模型感知的最小词语错误率训练改进罕见词语辨识的计算机实现的方法。该计算机实现的方法当在数据处理硬件上执行时使该数据处理硬件执行操作，这些操作包括：接收与话语相对应的声学帧序列作为输入；以及使用音频编码器在多个输出步骤中的每一者处生成该声学帧序列中的对应声学帧的更高阶特征表示。这些操作还包括：使用解码器基于该多个输出步骤中的每一者处的更高阶特征表示生成多个语音辨识假设，每个语音辨识假设与该话语的候选转录对应并且具有相关联的第一似然分数；以及使用外部语言模型针对该多个语音辨识假设中的每个语音辨识假设生成与该语音辨识假设相关联的第二似然分数。这些操作还包括：使用可学习融合模块，针对该多个语音辨识假设中的每个语音辨识假设，基于该更高阶特征表示和该语音辨识假设来确定融合权重集合；以及使用该可学习融合模块，针对该多个语音辨识假设中的每个语音辨识假设，基于该第一似然分数、该第二似然分数和该融合权重集合生成第三似然分数。这里，在存在外部语言模型的情况下，通过根据从解码器输出的前k个语音辨识假设中的最小加性错误率调整似然分数，使用最小加性错误率训练来训练音频编码器。

2、本公开的实现方式可以包括以下可选特征中的一者或多者。在一些实现方式中，这些操作还包括基于该多个语音辨识假设的第三似然分数，选择该多个语音辨识假设中的语音辨识假设作为该声学帧序列的语音辨识结果。在一些示例中，该第一似然分数包括条件似然分数和内部语言模型似然分数。

3、在一些示例中，特定语音辨识假设的第一似然分数包括第一多个语言模型分数，该第一多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的第二似然分数包括第二多个语言模型分数，该第二多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的融合权重集合包括第一多个融合权重和第二多个融合权重，该第一多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应，并且该第二多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应。这里，使用该可学习融合模块生成该特定语音辨识假设的第三似然分数可以包括：基于该第一多个语言模型分数和该第一多个融合权重来确定内部语言模型分数；基于该第二多个语言模型分数和该第二多个融合权重来确定外部语言模型分数；以及组合该内部语言模型分数和该外部语言模型分数。

4、在一些实现方式中，该音频编码器、该解码器和该可学习融合模块进行联合训练。在一些示例中，该外部语言模型针对纯文本数据进行训练。在一些示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括conformer层或transformer层堆叠。在其他示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括长短期记忆(lstm)层堆叠。

5、在一些示例中，该音频编码器包括：因果编码器，该因果编码器包括初始多头注意力层堆叠；以及非因果编码器，该非因果编码器包括覆盖在该初始多头注意力层堆叠上的最终多头注意力层堆叠。在一些实现方式中，该可学习融合模块被配置为计算该解码器的内部语言模型分数和该外部语言模型的外部语言模型分数的每词元融合权重。在一些实现方式中，最小加性错误率包括最小词语错误率。在一些示例中，该外部语言模型针对纯文本数据进行训练；并且该音频编码器和该解码器使用混合自回归转导器(hat)分解进行训练以促进针对该纯文本数据训练的外部语言模型的集成。

6、本公开的另一个方面提供了一种自动语音辨识(asr)系统，该asr系统包括音频编码器、解码器、外部语言模型以及可学习融合模块。该音频编码器被配置为接收与话语相对应的声学帧序列作为输入；以及在多个输出步骤中的每一者处生成该声学帧序列中的对应声学帧的更高阶特征表示。该解码器被配置为接收由该音频编码器在该多个输出步骤中的每一者处生成的更高阶特征表示作为输入，并且基于在该多个输出步骤中的每一者处接收的更高阶特征表示生成多个语音辨识假设，每个语音辨识假设与该话语的候选转录对应并且具有相关联的第一似然分数。该外部语言模型被配置为接收由该解码器生成的多个语音辨识假设作为输入，并且针对该多个语音辨识假设中的每个语音辨识假设生成与该语音辨识假设相关联的第二似然分数。该可学习融合模块被配置为，针对该多个语音辨识假设中的每个语音辨识假设：接收由该音频编码器在该多个输出步骤中的每一者处生成的更高阶特征表示作为输入；基于该更高阶特征表示和该语音辨识假设来确定融合权重集合；并且基于该第一似然分数、该第二似然分数和该融合权重集合生成第三似然分数。这里，在存在外部语言模型的情况下，通过根据从解码器输出的前k个语音辨识假设中的最小加性错误率调整似然分数，使用最小加性错误率训练来训练音频编码器。

7、本公开的实现方式可以包括以下可选特征中的一者或多者。在一些实现方式中，这些操作还包括基于该多个语音辨识假设的第三似然分数，选择该多个语音辨识假设中的语音辨识假设作为该声学帧序列的语音辨识结果。在一些示例中，该第一似然分数包括条件似然分数和内部语言模型似然分数。

8、在一些示例中，特定语音辨识假设的第一似然分数包括第一多个语言模型分数，该第一多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的第二似然分数包括第二多个语言模型分数，该第二多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的融合权重集合包括第一多个融合权重和第二多个融合权重，该第一多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应，并且该第二多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应。这里，使用该可学习融合模块生成该特定语音辨识假设的第三似然分数可以包括：基于该第一多个语言模型分数和该第一多个融合权重来确定内部语言模型分数；基于该第二多个语言模型分数和该第二多个融合权重来确定外部语言模型分数；以及组合该内部语言模型分数和该外部语言模型分数。

9、在一些实现方式中，该音频编码器、该解码器和该可学习融合模块进行联合训练。在一些示例中，该外部语言模型针对纯文本数据进行训练。在一些示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括conformer层或transformer层堆叠。在其他示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括长短期记忆(lstm)层堆叠。

10、在一些示例中，该音频编码器包括：因果编码器，该因果编码器包括初始多头注意力层堆叠；以及非因果编码器，该非因果编码器包括覆盖在该初始多头注意力层堆叠上的最终多头注意力层堆叠。在一些实现方式中，该可学习融合模块被配置为计算该解码器的内部语言模型分数和该外部语言模型的外部语言模型分数的每词元融合权重。在一些实现方式中，最小加性错误率包括最小词语错误率。在一些示例中，该外部语言模型针对纯文本数据进行训练；并且该音频编码器和该解码器使用混合自回归转导器(hat)分解进行训练以促进针对该纯文本数据训练的外部语言模型的集成。

11、本公开的一个或多个实现方式的细节在附图和以下描述中进行阐述。根据说明书和附图以及根据权利要求，其他方面、特征和优点将显而易见。