技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于半监督语音识别的对比孪生网络的制作方法 > 正文

用于半监督语音识别的对比孪生网络的制作方法

国知局
2024-06-21 11:52:03

本公开涉及用于半监督语音识别的对比孪生(siamese)网络。

背景技术：

1、自动语音识别(asr)系统试图通过获取音频输入并将音频输入转录成文本来提供人所说内容的准确转录。在许多实例中，监督学习用于利用大量标记训练数据(包括音频数据和对应转录)来训练asr系统。然而，由于与收集大标记训练数据集相关联的所需时间量、成本和/或隐私问题，获得训练asr系统所需的大量标记训练数据通常是困难的。使用仅包括音频数据的未标记训练数据来训练asr系统可以缓解收集大量标记训练数据的一些困难。

技术实现思路

1、本公开的一个方面提供了一种用于训练语音识别模型的对比孪生网络。对比孪生网络包括在对应于未与任何对应转录配对的口述话语的多个未标记音频样本上训练的无监督子网络。无监督子网络包括目标分支，该目标分支被配置为：接收从未标记音频样本提取的声学帧的序列作为对语音识别模型的音频编码器的输入；以及在多个时间步中的每个处，生成针对在对应时间步处输入到音频编码器的声学帧的序列中的对应声学帧的目标分支输出。无监督子网络还包括增强分支，该增强分支被配置为：对从未标记音频样本提取的声学帧的序列执行增强以生成增强声学帧的序列；在多个时间步中的每个处，生成针对增强声学帧的序列中的对应增强声学帧的高阶特征表示作为来自音频编码器的输出；以及，在多个时间步中的每个处，使用在对应时间步处从音频编码器输出的高阶特征表示来生成由目标分支在对应时间步处生成的目标分支输出的预测。无监督子网络被配置为：在多个时间步中的每个处，基于由目标分支在对应时间步处生成的目标分支输出和由增强分支在对应时间步处生成的目标分支的预测来确定无监督损失项。这里，无监督子网络还被配置为基于在多个时间步中的每个处确定的无监督损失项来更新音频编码器的参数。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，无监督损失项包括对比损失项。对声学帧的序列执行的增强可以包括时间修改和掩蔽。在一些示例中，目标分支还被配置为：在多个时间步中的每个处，生成针对在对应时间步处输入到音频编码器的声学帧的序列中的对应声学帧的高阶特征表示作为来自音频编码器的输出。这里，目标分支被配置为通过修改高阶特征表示的时间特性来生成针对对应声学帧的目标分支输出。在这些示例中，修改高阶特征表示的时间特性可以包括：在多个时间步中的每个处，修改针对对应声学帧的作为来自音频编码器的输出生成的高阶特征表示的时间特性，以匹配与在对应时间步处针对对应增强声学帧的作为来自音频编码器的输出生成的高阶特征表示相关联的时间特性。

3、在一些实施方式中，增强分支包括transformer层的预测网络，该预测网络被配置为在多个时间步中的每个处：接收在对应时间步处从音频编码器输出的高阶特征表示作为输入；以及，生成由目标分支在对应时间步处生成的目标分支输出的预测作为输出。在一些示例中，对比孪生网络包括在对应于与对应转录配对的口述话语的多个标记音频样本上训练的监督子网络。在这些示例中，在针对每个标记音频样本的多个输出步中的每个处，监督子网络被配置为使用语音识别模型生成针对标记音频样本的对应语音识别结果；以及基于针对标记音频样本的对应语音识别结果和标记音频样本的对应转录来确定监督损失项。这里，监督子网络基于在多个输出步中的每个处针对多个标记音频样本中的每个标记音频样本确定的监督损失项来更新语音识别模型的参数。

4、使用语音识别模型针对标记音频样本生成的对应语音识别结果可以包括在对应输出步处针对标记音频样本的可能语音识别假设上的概率分布。在一些示例中，监督子网络被配置为：独立于无监督网络更新语音识别模型的音频编码器的参数，基于监督损失项来更新语音识别模型的参数。在其他示例中，监督子网络还被配置为将数据增强应用到输入到语音识别模型的多个标记音频样本中的标记音频样本中的至少一个。在这些其他示例中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

5、在一些实施方式中，训练后的语音识别模型包括transformer-transducer(t-t)模型，该t-t模型包括音频编码器，音频编码器被配置为：接收从表征口述话语的音频数据提取的声学帧的序列作为输入；以及在多个时间步中的每个处生成针对声学帧的序列中的对应声学帧的高阶特征表示。在这些实施方式中，t-t模型还包括：标签编码器，其被配置为接收由最终softmax层输出的非空白符号的序列作为输入，并且在多个时间步中的每个处生成密集表示；以及联合网络，其被配置为接收由音频编码器在多个时间步中的每个处生成的高阶特征表示(aht)和由标签编码器在多个时间步中的每个处生成的密集表示(ihu)作为输入，以及在多个时间步中的每个处生成在对应时间步处的可能语音识别假设上的概率分布。这里，音频编码器包括具有跨步卷积层和transformer层的堆叠的神经网络。

6、本公开的另一方面提供了一种计算机实现的方法，该方法当在数据处理硬件上执行时使得数据处理硬件执行用于使用对比孪生网络来训练语音识别模型的操作。操作包括：接收对应于未与对应转录配对的口述话语的多个未标记音频样本。在对比孪生网络的目标分支处，操作包括：使用语音识别模型的音频编码器生成针对多个未标记音频样本的编码器输出的序列；以及修改编码器输出的时间特性以生成目标分支输出的序列。在对比孪生网络的增强分支处，操作包括：对未标记音频样本执行增强；使用语音识别模型的音频编码器生成针对增强的未标记音频样本的增强编码器输出的序列；以及使用被配置为接收增强编码器输出的序列的预测网络生成在目标分支处生成的目标分支输出的序列的预测。操作还包括基于在目标分支处生成的目标分支输出和在增强分支处生成的目标分支输出的序列的预测来确定无监督损失项。操作还包括基于无监督损失项来更新音频编码器的参数。

7、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，无监督损失项包括对比损失项。对未标记音频样本执行增强可以包括对未标记音频样本执行时间修改和掩蔽。在一些示例中，操作还包括生成针对多个未标记音频样本的高阶特征表示作为来自音频编码器的输出。在这些示例中，修改编码器输出的时间特性以生成目标分支输出的序列包括：修改作为来自音频编码器的输出生成的编码器输出的时间特性，以匹配与来自音频编码器的增强编码器输出的序列相关联的时间特性。在一些实施方式中，操作还包括：接收增强编码器输出的序列作为对增强分支的transformer层的预测网络的输入；以及生成在目标分支处生成的目标分支输出的序列的预测作为来自增强分支的transformer层的预测网络的输出。

8、在一些示例中，操作还包括：接收对应于与对应转录配对的口述话语的多个标记音频样本；使用语音识别模型生成针对标记音频样本的语音识别结果；基于针对标记音频样本的语音识别结果和标记音频样本的对应转录来确定监督损失项；以及基于监督损失项来更新语音识别模型的参数。在这些示例中，操作还可以包括：独立于基于无监督损失项来更新音频编码器的参数，基于监督损失项来更新语音识别模型的参数。可选地，操作还包括将数据增强应用到标记音频样本中的至少一个。这里，应用数据增强可以包括添加噪声、添加混响或操纵定时中的至少一个。

9、在一些实施方式中，语音识别模型包括transformer-transducer(t-t)模型，并且操作还包括：接收对应于未与对应转录配对的口述话语的多个未标记音频样本作为对t-t模型的音频编码器的输入；由音频编码器在多个时间步中的每个处生成从表征口述话语的音频数据提取的声学帧的序列；接收由最终softmax层输出的非空白符号的序列作为对t-t模型的标签编码器的输入；以及由标签编码器在多个时间步中的每个处生成密集表示。在这些实施方式中，操作还包括：接收由音频编码器在多个时间步中的每个处生成的高阶特征表示以及由音频编码器在多个时间步中的每个处生成的密集表示作为对t-t模型的联合网络的输入；以及由联合网络在多个时间步中的每个处生成在对应时间步处的可能语音识别假设上的概率分布。这里，音频编码器包括具有跨步卷积层和transformer层的堆叠的神经网络。

10、本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及从权利要求中变得显而易见。