技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于长形式语音识别的训练的制作方法 > 正文

用于长形式语音识别的训练的制作方法

国知局
2024-06-21 11:58:20

本公开涉及训练用于长形式语音识别的语音识别模型。

背景技术：

1、现代自动语音识别(asr)系统不仅专注于提供高质量(例如，低单词错误率)，而且还专注于提供口述话语的低延迟(例如，用户说话和转录出现之间的短延迟)语音识别。例如，当使用实现asr系统的设备时，通常存在asr系统以对应于实时甚至比实时更快的流方式解码话语的期望。

技术实现思路

1、本公开的一个方面提供了一种用于训练语音识别模型以识别长形式语音的计算机实现的方法。计算机实现的方法当在数据处理硬件上执行时，使数据处理硬件执行操作，操作包括获得训练样本的集合。训练样本的集合中的每个训练样本包括对应于训练话语的对应语音片段序列和用于语音片段序列的对应真实转录序列。对应真实转录序列中的每个真实转录包括对应语音片段的开始时间和结束时间。对于训练样本的集合中的每个训练样本，该方法包括：使用语音识别模型处理对应语音片段序列以获得用于训练话语的一个或多个语音识别假设；对于为训练话语获得的每个语音识别假设，标识相对于对应真实转录序列的单词错误的相应数量；以及，基于针对为训练话语获得的每个语音识别假设标识的单词错误的相应数量来训练语音识别模型以最小化单词错误率。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，处理语音片段序列以获得一个或多个语音识别假设包括处理语音片段序列以获得语音识别假设的n最佳列表；以及，训练语音识别模型以最小化单词错误率包括基于针对语音识别假设的n最佳列表中的每个语音识别假设所标识的单词错误的相应数量的平均值，训练语音识别模型以最小化单词错误率。

3、在一些示例中，训练样本的集合中的每个训练样本还包括在语音片段序列中每对相邻语音片段之间的相应非语音片段。在一些实施方式中，语音片段序列中的每个语音片段包括至少六秒的平均持续时间。

4、在一些实施方式中，语音识别模型包括基于transducer的语音识别模型，基于transducer的语音识别模型包括编码器网络、预测网络和联合网络。在一些示例中，编码器网络包括多个多头注意力层。

5、在一些示例中，预测网络被配置为在初始时间步之后的多个时间步中的每个时间步处接收由最终softmax层输出的非空白符号序列作为输入。在多个时间步中的每个时间步处，并且对于在对应时间步处作为输入接收到的非空白符号序列中的每个非空白符号，预测网络被配置为：使用共享嵌入矩阵生成对应非空白符号的嵌入；将相应位置向量分配给对应非空白符号；以及，与嵌入和相应位置向量之间的相似度成比例地对嵌入进行加权。预测网络还被配置为在对应时间步处生成单个嵌入向量作为输出，单个嵌入向量基于所加权的嵌入的加权平均。在一些实施方式中，联合网络被配置为在初始时间步之后的多个时间步中的每个时间步处：在对应时间步处从预测网络接收作为输出生成的单个嵌入向量作为输入；以及，在对应时间步处生成在可能的语音识别假设上的概率分布。在一些示例中，预测网络将共享嵌入矩阵的维数与联合网络的输出层的维数绑定。

6、本公开的另一方面提供了一种系统，包括数据处理硬件和存储器硬件，存储器硬件与数据处理硬件通信并存储指令，指令当在数据处理硬件上执行时，使数据处理硬件执行操作。操作包括获得训练样本。训练样本的集合中的每个训练样本包括对应于训练话语的对应语音片段序列和用于语音片段序列的对应真实转录序列。对应真实转录序列中的每个真实转录包括对应语音片段的开始时间和结束时间。对于训练样本的集合中的每个训练样本，操作包括：使用语音识别模型处理对应语音片段序列以获得用于训练话语的一个或多个语音识别假设；对于为训练话语获得的每个语音识别假设，标识相对于对应真实转录序列的单词错误的相应数量；以及，基于针对为训练话语获得的每个语音识别假设标识的单词错误的相应数量来训练语音识别模型以最小化单词错误率。

7、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，处理语音片段序列以获得一个或多个语音识别假设包括处理语音片段序列以获得语音识别假设的n最佳列表；以及，训练语音识别模型以最小化单词错误率包括基于针对语音识别假设的n最佳列表中的每个语音识别假设所标识的单词错误的相应数量的平均值，训练语音识别模型以最小化单词错误率。

8、在一些示例中，训练样本的集合中的每个训练样本还包括在语音片段序列中每对相邻语音片段之间的相应非语音片段。在一些实施方式中，语音片段序列中的每个语音片段包括至少六秒的平均持续时间。

9、在一些实施方式中，语音识别模型包括基于transducer的语音识别模型，基于transducer的语音识别模型包括编码器网络、预测网络和联合网络。在一些示例中，编码器网络包括多个多头注意力层。

10、在一些示例中，预测网络被配置为在初始时间步之后的多个时间步中的每个时间步处接收由最终softmax层输出的非空白符号序列作为输入。在多个时间步中的每个时间步处，并且对于在对应时间步处作为输入接收到的非空白符号序列中的每个非空白符号，预测网络被配置为：使用共享嵌入矩阵生成对应非空白符号的嵌入；将相应位置向量分配给对应非空白符号；以及，与嵌入和相应位置向量之间的相似度成比例地对嵌入进行加权。预测网络还被配置为在对应的时间步处生成单个嵌入向量作为输出，单个嵌入向量基于所加权的嵌入的加权平均。在一些实施方式中，联合网络被配置为在初始时间步之后的多个时间步中的每个时间步处：接收在对应时间步从预测网络作为输出生成的单个嵌入向量作为输入；以及，在对应的时间步处生成在可能的语音识别假设上的概率分布。在一些示例中，预测网络将共享嵌入矩阵的维度与联合网络的输出层的维度绑定。

11、本公开的又一方面提供了一种用于训练语音识别模型以识别长形式语音的计算机实现的方法。该方法包括获得训练样本的集合。训练样本的集合中的每个训练样本包括对应原始语音片段序列和原始语音片段序列的对应真实转录序列。对应真实转录序列中的每个真实转录包括对应原始语音片段的开始时间和结束时间。该方法包括将来自原始语音片段序列的两组或更多组连续原始语音片段级联，以形成连续原始语音片段的每个级联组的相应长训练话语。在第一训练阶段，对于每个相应长训练话语，该方法包括：使用语音识别模型处理连续原始语音片段的级联组以预测相应长训练话语的语音识别假设；以及，基于用于相应长训练话语的所预测的语音识别假设和真实转录的对应组使用对数损失来训练语音识别模型。

12、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，该方法还包括，在第二训练阶段期间，对于训练样本的集合中的每个训练样本：使用第一训练阶段初始化的语音识别模型处理对应原始语音片段序列以获得一个或多个语音识别假设；对于每个语音识别假设，标识相对于对应真实转录序列的单词错误的相应数量；以及，基于为每个语音识别假设标识别的单词错误的相应数量来训练语音识别模型以最小化单词错误率。

13、在一些示例中，处理原始语音片段序列以获得一个或多个语音识别假设包括处理原始语音片段序列以获得语音识别假设的n最佳列表；以及，训练语音识别模型以最小化单词错误率包括基于针对语音识别假设的n最佳列表中的每个语音识别假设所标识的单词错误的相应数量的平均值，训练语音识别模型以最小化单词错误率。

14、在一些实施方式中，语音识别模型包括基于transducer的语音识别模型，基于transducer的语音识别模型包括编码器网络和解码器。这里，解码器包括预测网络和联合网络。在一些示例中，在第二训练阶段期间训练语音识别模型以最小化单词错误率包括：微调由第一训练阶段初始化的解码器的参数，而不微调由第一训练阶段初始化的编码器网络的任何参数。

15、本公开的又一方面提供了一种系统，包括数据处理硬件、以及与数据处理硬件通信并存储指令的存储器硬件，指令当在数据处理硬件上执行时，使数据处理硬件执行操作。这些操作包括获得训练样本的集合。训练样本的集合中的每个训练样本包括对应原始语音片段序列和原始语音片段序列的对应真实转录序列。对应真实转录序列中的每个真实转录包括对应原始语音片段的开始时间和结束时间。该方法包括将来自原始语音片段序列的两组或更多组连续原始语音片段级联，以形成连续原始语音片段的每个级联组的相应长训练话语。在第一训练阶段，对于每个相应长训练话语，该方法包括：使用语音识别模型处理连续原始语音片段的级联组以预测相应长训练话语的语音识别假设；以及，基于用于相应长训练话语的所预测的语音识别假设和真实转录的对应组使用对数损失来训练语音识别模型。

16、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，操作还包括，在第二训练阶段期间，对于训练样本的集合中的每个训练样本：使用第一训练阶段初始化的语音识别模型处理对应原始语音片段序列以获得一个或多个语音识别假设；对于每个语音识别假设，标识相对于对应真实转录序列的单词错误的相应数量；以及，基于为每个语音识别假设标识的单词错误的相应数量来训练语音识别模型以最小化单词错误率。

17、在一些示例中，处理原始语音片段序列以获得一个或多个语音识别假设包括处理原始语音片段序列以获得语音识别假设的n最佳列表；以及，训练语音识别模型以最小化单词错误率包括基于针对语音识别假设的n最佳列表中的每个语音识别假设所标识的单词错误的相应数量的平均值，训练语音识别模型以最小化单词错误率。

18、在一些实施方式中，语音识别模型包括基于transducer的语音识别模型，基于transducer的语音识别模型包括编码器网络和解码器。这里，解码器包括预测网络和联合网络。在一些示例中，在第二训练阶段期间训练语音识别模型以最小化单词错误率包括：微调由第一训练阶段初始化的解码器的参数，而不微调由第一训练阶段初始化的编码器网络的任何参数。

19、本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中变得显而易见。