技术新讯 > 乐器声学设备的制造及制作,分析技术 > 在自监督语音预训练中注入文本的制作方法 > 正文

在自监督语音预训练中注入文本的制作方法

国知局
2024-06-21 11:37:12

本公开涉及在自监督语音预训练中注入文本。

背景技术：

1、自动语音识别(asr)——采用音频输入并且将其转录为文本的过程——已经极大地成为在移动设备和其他设备中使用的一种重要技术。通常，自动语音识别试图通过采用音频输入(例如语音话语)并且将音频输入转录为文本来提供对人所说内容的准确转录。基于深度神经网络的不断发展，现代asr模型在准确性(例如低词错误率(wer))和时延(例如用户说话与转录之间的延迟)两方面不断提高。然而，开发基于深度学习的asr模型的一个挑战是asr模型的参数倾向于过度拟合训练数据，从而导致asr模型在训练数据不够广泛时难以概括未见数据。因此，在更大的训练数据集上训练asr模型提高了asr模型的准确性。能够并入合成语音和/或数据增强语音以增加用于训练asr模型的训练数据量。

技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法，该方法当在数据处理硬件上执行时，使数据处理硬件执行用于预训练音频编码器以联合学习共享的语音和文本的表示的操作。操作包括接收训练数据，训练数据包括非口头文本话语和未转录的非合成语音话语。每个非口头文本话语不与非合成语音的任何对应的口头话语配对。每个未转录的非合成语音话语不与对应的转录配对。操作还包括使用文本到语音模型，为所接收的训练数据的每个非口头文本话语生成对应的合成语音表示。操作还包括在为非口头文本话语生成的合成语音表示和未转录的非合成语音话语上预训练音频编码器，以教导音频编码器联合学习共享语音和文本表示。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，音频编码器包括自注意力层的堆叠，每个自注意力层包括多头自注意力机制。在一些示例中，预训练音频编码器包括：对于每个未转录的非合成语音话语：生成未转录的语音表示的对应编码表示以及在应用于未转录的非合成语音话语的对应编码表示的对比上预训练音频编码器；以及对于每个合成语音表示：生成合成语音表示的对应编码表示以及在应用于合成语音表示的对应编码表示的对比损失上预训练音频编码器。

3、在一些实施方式中，预训练音频编码器包括，在用于每个合成语音表示的多个时间步中的每个时间步处：使用辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第一概率分布；基于可能的合成语音识别假设上的第一概率分布和与对应的合成语音表示相对应的非口头文本话语来确定合成语音损失项；以及基于合成语音损失项来预训练音频编码器。在此，可能的合成语音识别假设上的第一概率分布可以包括可能的音素标签或可能的词块标签之一。

4、在这些实施方式中，预训练音频编码器还可以包括，在用于每个合成语音表示的多个时间步中的每个时间步处：使用另一辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第二概率分布，可能的合成语音识别假设上的第二概率分布包括可能的音素标签或可能的词块标签中的另一个；基于可能的合成语音识别假设上的第二概率分布和与对应的合成语音表示相对应的非口头文本话语来确定另一合成语音损失项；以及基于另一合成语音损失项来预训练音频编码器。辅助解码器和另一辅助解码器可以分别包括连接时间分类解码器(ctc)、倾听注意拼写(las)解码器或递归神经网络-换能器(rnn-t)解码器中的一个。

5、在一些实例中，操作进一步包括：在合成语音表示上预训练音频编码器之前，增强合成语音表示中的一个或多个。在此，在合成语音表示上预训练音频编码器可以包括在增强的一个或多个合成语音表示上预训练音频编码器。可以使用一个或多个语言模型来生成和/或选择非口头文本话语。

6、在一些实施方式中，使用背景语言模型和在与目标域相关联的转录的语音话语上训练的域内语言模型来生成非口头文本话语。附加地或替代地，操作可以进一步包含：在预训练音频编码器之后，在转录的语音话语上微调预训练的音频编码器。

7、本公开的另一方面提供了一种系统，该系统包括数据处理硬件和存储指令的存储器硬件，指令当在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收训练数据，训练数据包括非口头文本话语和未转录的非合成语音话语。每个非口头文本话语不与非合成语音的任何对应的口头话语配对。每个未转录的非合成语音话语不与对应的转录配对。操作还包括使用文本到语音模型，为所接收的训练数据的每个非口头文本话语生成对应的合成语音表示。操作还包括在为非口头文本话语生成的合成语音表示和未转录的非合成语音话语上预训练音频编码器，以教导音频编码器联合学习共享语音和文本表示。

8、本公开的该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，音频编码器包括自注意力层的堆叠，每个自注意力层包括多头自注意力机制。在一些示例中，预训练音频编码器包括：对于每个未转录的非合成语音话语：生成未转录的语音表示的对应编码表示以及在应用于未转录的非合成语音话语的对应编码表示的对比上预训练音频编码器；以及对于每个合成语音表示：生成合成语音表示的对应编码表示以及在应用于合成语音表示的对应编码表示的对比损失上预训练音频编码器。

9、在一些实施方式中，预训练音频编码器包括，在用于每个合成语音表示的多个时间步中的每个时间步处：使用辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第一概率分布；基于可能的合成语音识别假设上的第一概率分布和与对应的合成语音表示相对应的非口头文本话语来确定合成语音损失项；以及基于合成语音损失项来预训练音频编码器。在此，可能的合成语音识别假设上的第一概率分布可以包括可能的音素标签或可能的词块标签之一。

10、在这些实施方式中，预训练音频编码器还可以包括，在用于每个合成语音表示的多个时间步中的每个时间步处：使用另一辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第二概率分布，可能的合成语音识别假设上的第二概率分布包括可能的音素标签或可能的词块标签中的另一个；基于可能的合成语音识别假设上的第二概率分布和与对应的合成语音表示相对应的非口头文本话语来确定另一合成语音损失项；以及基于另一合成语音损失项来预训练音频编码器。辅助解码器和另一辅助解码器可以分别包括连接时间分类解码器(ctc)、倾听注意拼写(las)解码器或递归神经网络-换能器(rnn-t)解码器中的一个。

11、在一些实例中，操作进一步包括：在合成语音表示上预训练音频编码器之前，增强合成语音表示中的一个或多个。在此，在合成语音表示上预训练音频编码器可以包括在增强的一个或多个合成语音表示上预训练音频编码器。可以使用一个或多个语言模型来生成和/或选择非口头文本话语。

12、在一些实施方式中，使用背景语言模型和在与目标域相关联的转录的语音话语上训练的域内语言模型来生成非口头文本话语。附加地或替代地，操作可以进一步包含：在预训练音频编码器之后，在转录的语音话语上微调预训练的音频编码器。

13、在下面的附图和描述中阐述本公开的一个或多个实施方式的细节。其他方面、特征和优点将通过描述和附图并且通过权利要求而显而易见。