推进文本和语音在具有一致性和对比损失的ASR预训练中的使用的制作方法
- 国知局
- 2024-06-21 11:30:04
本公开涉及推进文本和语音在具有一致性和对比损失的自动语音识别(asr)预训练中的使用。
背景技术:
1、自动语音识别(asr),即取得音频输入并且将其转录成文本的过程,已经极大地成为在移动设备和其他设备中使用的重要技术。通常,自动语音识别尝试通过取得音频输入(例如,语音话语)并且将该音频输入转录成文本来提供一个人已经说过什么的准确转录。现代asr模型继续基于深度神经网络的不断发展在准确性(例如,低词错误率(wer))和延时(例如,用户讲话与转录之间的延迟)两者改进。然而,开发基于深度学习的asr模型时的一个挑战是asr模型的参数往往过拟合训练数据,从而导致当训练数据不够广泛时,asr模型难以泛化看不见的数据。因此,在更大的训练数据集上训练asr模型改进asr模型的准确性。合成语音和/或数据增强语音能够被并入以增加用于训练asr模型的训练数据的体积。
技术实现思路
1、本公开的一个方面提供了一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上运行时,使该数据处理硬件执行用于预训练音频编码器以联合地学习语音和文本的共享表示的操作。操作包括:接收训练数据,该训练数据包括非口头文本话语、未转录非合成语音话语和转录非合成语音话语。每个非口头文本话语不与非合成语音的任何对应口头话语配对。每个未转录非合成语音话语不与对应转录配对。每个转录非合成语音话语与对应转录配对。操作还包括:使用文本到语音模型针对接收到的训练数据的每个非口头文本话语生成对应合成语音表示。操作还包括:在针对非口头文本话语生成的合成语音表示、未转录非合成语音话语和转录非合成语音话语上预训练音频编码器,以教导该音频编码器联合地学习共享语音和文本表示。
2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,音频编码器包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。在一些示例中,预训练音频编码器包括:针对每个未转录非合成语音话语,生成未转录语音表示的对应编码表示,以及在应用在未转录非合成语音话语的对应编码表示上的对比上预训练音频编码器;针对每个合成语音表示:生成合成语音表示的对应编码表示;以及在应用在合成语音表示的对应编码表示上的对比损失上预训练音频编码器;并且针对每个转录非合成语音话语:生成转录非合成语音话语的对应编码表示;以及应用在转录非合成语音话语的对应编码表示上的对比损失上预训练音频编码器。
3、在一些实施方式中,预训练音频编码器包括:在多个时间步中的每一个时间步针对每个合成语音表示:使用辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第一概率分布;基于可能的合成语音识别假设上的第一概率分布和与对应合成语音表示相对应的非口头文本话语确定合成语音损失项;以及基于合成语音损失项预训练音频编码器;并且在多个时间步中的每一个时间步针对每个转录非合成语音话语,使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第二概率分布;基于可能的非合成语音识别假设上的第二概率分布和与转录非合成语音话语配对的对应转录确定非合成语音损失项;以及基于非合成语音损失项预训练音频编码器。这里,可能的合成语音识别假设上的第一概率分布包括可能的音素标记或可能的词段标记中的一者,并且可能的非合成语音识别假设上的第二概率分布包括可能的音素标记或可能的词段标记中的一者。
4、在这些实施方式中,预训练音频编码器可以进一步包括:在多个时间步中的每一个时间步针对每个合成语音表示:使用另一辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第三概率分布,该可能的合成语音识别假设上的第三概率分布包括可能的音素标记或可能的词段标记中的另一者;基于可能的合成语音识别假设上的第三概率分布和与对应合成语音表示相对应的非口头文本话语确定另一合成语音损失项;以及基于另一合成语音损失项预训练音频编码器;并且在多个时间步中的每一个时间步针对每个转录非合成语音话语,使用另一辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第四概率分布,该可能的非合成语音识别假设上的第四概率分布包括可能的音素标记或可能的词段标记中的另一者;基于可能的非合成语音识别假设上的第四概率分布和与转录非合成语音话语配对的对应转录确定另一非合成语音损失项;以及基于非合成语音损失项预训练音频编码器。辅助解码器包括连接时间分类(ctc)解码器、收听注意拼写(las)解码器或循环神经网络-transducer(rnn-t)解码器中的一者。
5、在一些示例中,操作还包括:获得训练话语对的集合,每个训练话语对包括:接收到的训练数据的转录非合成语音话语中的对应一者;以及对应转录非合成语音话语的配对合成语音表示,该配对合成语音表示由文本到语音模型对与转录非合成语音话语配对的对应转录执行文本到语音转换而生成。在这些示例中,预训练音频编码器包括:在多个输出步中的每一个输出步针对训练话语对的集合中的每个训练话语对,使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第一概率分布;使用辅助解码器针对对应配对合成语音表示生成可能的合成语音识别假设上的第二概率分布;基于可能的非合成语音识别假设上的第一概率分布和可能的合成语音识别假设上的第二概率分布针对对应训练话语对确定一致性损失项;以及基于非合成语音损失项预训练音频编码器。在合成语音表示上预训练音频编码器之前,增强合成语音表示中的一个或多个。
6、在一些实施方式中,非口头文本话语是使用一个或多个语言模型而生成和/或选择的。在一些示例中,非口头文本话语是使用在与目标域相关联的转录语音话语上训练的背景语言模型和域内语言模型而生成的。在预训练音频编码器之后,微调在转录语音话语上经预训练的编码器。
7、本公开的另一方面提供了一种系统,该系统包括:数据处理硬件;以及存储器硬件,该存储器硬件存储指令,该指令当在数据处理硬件上运行时,使该数据处理硬件执行操作。该操作包括:接收训练数据,该训练数据包括非口头文本话语、未转录非合成语音话语和转录非合成语音话语。每个非口头文本话语不与非合成语音的任何对应口头话语配对。每个未转录非合成语音话语不与对应转录配对。每个转录非合成语音话语与对应转录配对。操作还包括:使用文本到语音模型针对接收到的训练数据的每个非口头文本话语生成对应合成语音表示。操作还包括:在针对非口头文本话语生成的合成语音表示、未转录非合成语音话语和转录非合成语音话语上预训练音频编码器,以教导该音频编码器联合地学习共享语音和文本表示。
8、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,音频编码器包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。在一些示例中,预训练音频编码器包括:针对每个未转录非合成语音话语:生成未转录语音表示的对应编码表示,以及在应用在未转录非合成语音话语的对应编码表示上的对比上预训练音频编码器;针对每个合成语音表示,生成合成语音表示的对应编码表示;以及在应用在合成语音表示的对应编码表示上的对比损失上预训练音频编码器;针对每个转录非合成语音话语:生成转录非合成语音话语的对应编码表示;以及在应用在转录非合成语音话语的对应编码表示上的对比损失上预训练音频编码器。
9、在一些实施方式中,预训练音频编码器包括:在多个时间步中的每一个时间步针对每个合成语音表示,使用辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第一概率分布;基于可能的合成语音识别假设上的第一概率分布和与对应合成语音表示相对应的非口头文本话语确定合成语音损失项;以及基于合成语音损失项预训练音频编码器;并且在多个时间步中的每一个时间步针对每个转录非合成语音话语,使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第二概率分布;基于可能的非合成语音识别假设上的第二概率分布和与转录非合成语音话语配对的对应转录确定非合成语音损失项;以及基于非合成语音损失项预训练音频编码器。这里,可能的合成语音识别假设上的第一概率分布包括可能的音素标记或可能的词段标记中的一者,并且可能的非合成语音识别假设上的第二概率分布包括可能的音素标记或可能的词段标记中的一者。
10、在这些实施方式中,预训练音频编码器可以还包括:在多个时间步中的每一个时间步针对每个合成语音表示,使用另一辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第三概率分布,该可能的合成语音识别假设上的第三概率分布包括可能的音素标记或可能的词段标记中的另一者;基于可能的合成语音识别假设上的第三概率分布和与对应合成语音表示相对应的非口头文本话语确定另一合成语音损失项;以及基于另一合成语音损失项预训练音频编码器;并且在多个时间步中的每一个时间步针对每个转录非合成语音话语,使用另一辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第四概率分布,该可能的非合成语音识别假设上的第四概率分布包括可能的音素标记或可能的词段标记中的另一者;基于可能的非合成语音识别假设上的第四概率分布和与转录非合成语音话语配对的对应转录确定另一非合成语音损失项;以及基于非合成语音损失项预训练音频编码器。辅助解码器包括连接时间分类(ctc)解码器、收听注意拼写(las)解码器或循环神经网络-transducer(rnn-t)解码器中的一者。
11、在一些示例中,操作还包括:获得训练话语对的集合,每个话语对包括接收到的训练数据的转录非合成语音话语中的对应一者;以及对应转录非合成语音话语的配对合成语音表示,该配对合成语音表示由文本到语音模型对与转录非合成语音话语配对的对应转录执行文本到语音转换而生成。在这些示例中,预训练音频编码器包括,在多个输出步中的每一个输出步对于训练话语对的集合中的每个训练话语对:使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第一概率分布;使用辅助解码器针对对应配对合成语音表示生成可能的合成语音识别假设上的第二概率分布;基于可能的非合成语音识别假设上的第一概率分布和可能的合成语音识别假设上的第二概率分布针对对应训练话语对确定一致性损失项;以及基于非合成语音损失项预训练音频编码器。在合成语音表示上预训练音频编码器之前,增强合成语音表示中的一个或多个。
12、在一些实施方式中,非口头文本话语是使用一个或多个语言模型而生成和/或选择的。在一些示例中,非口头文本话语是使用在与目标域相关联的转录语音话语上训练的背景语言模型和域内语言模型而生成的。在预训练音频编码器之后,微调在转录语音话语上经预训练的编码器。
13、本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。根据说明书和附图,并且根据权利要求,其他方面、特征和优点将是清楚的。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21884.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表