技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于级联编码器的基于transducer的流传输推敲的制作方法 > 正文

用于级联编码器的基于transducer的流传输推敲的制作方法

国知局
2024-06-21 11:53:29

本公开涉及用于级联编码器(cascaded encoders)的基于transducer的流传输推敲(deliberation)。

背景技术：

1、自动语音识别(asr)系统已经从每个模型具有专用目的的多个模型演变为使用单个神经网络来将音频波形(即，输入序列)直接映射到输出句子(即，输出序列)的集成模型。这种集成已经导致序列到序列方法，该方法当给定音频特征序列时生成单词(或字素)序列。利用集成结构，模型的所有组件可以作为单个端到端(e2e)神经网络联合被训练。这里，e2e模型是指其架构完全由神经网络构成的模型。也就是说，完全神经网络在没有外部和/或手动设计的组件(例如，有限状态transducer、词典(lexicon)或文本规范化模块)的情况下起作用。另外，当训练e2e模型时，这些模型通常不需要来自决策树的自举或来自单独系统的时间对准。这些e2e asr系统已经取得了巨大的进展，在包括字错误率(wer)的若干常见基准方面超越了常规asr系统。例如，涉及用户交互(诸如话音搜索或设备上听写)的许多应用要求模型以流传输方式执行识别。其他应用(如离线视频字幕)不需要模型来流传输，并且能够利用未来的上下文(context)来改善性能。通常，模型以流传输方式执行识别，同时还具有类似于利用未来上下文的非流传输模型的改善性能将是有益的。

技术实现思路

1、本公开的一个方面提供了一种用于级联编码器的基于transducer的推敲模型，包括：第一编码器，所述第一编码器被配置为：接收声学帧的序列作为输入；以及在多个输出步中的每个输出步处，为声学帧的序列中的对应的声学帧生成第一高阶特征表示。基于transducer的推敲模型还包括第一遍(pass)transducer解码器，该第一遍transducer解码器被配置为：接收由第一编码器在多个输出步中的每个输出步处生成的第一高阶特征表示作为输入；以及在多个输出步中的每个输出步处，为对应的第一高阶特征表示生成第一遍语音识别假设。基于transducer的推敲模型还包括文本编码器，该文本编码器被配置为：接收在多个输出步中的每个输出步处生成的第一遍语音识别假设作为输入；以及在多个输出步中的每个输出步处，为对应的第一遍语音识别假设生成文本编码。基于transducer的推敲模型还包括第二编码器，该第二编码器被配置为：接收由第一编码器在多个输出步中的每个输出步处生成的第一高阶特征表示作为输入；以及在多个输出步中的每个输出步处，为对应的第一高阶特征表示生成第二高阶特征表示。基于transducer的推敲模型还包括第二遍transducer解码器，该第二遍transducer解码器被配置为：接收由第二编码器在多个输出步中的每个输出步处生成的第二高阶特征表示和由文本编码器在多个输出步中的每个输出步处生成的文本编码作为输入；以及在多个输出步中的每个输出步处，生成第二遍语音识别假设。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，基于transducer的推敲模型进一步包括由第一遍transducer解码器和第二遍transducer解码器共享的预测网络。这里，预测网络被配置为接收由最终softmax层输出的非空白符号的序列作为输入；以及在多个输出步中的每个输出步处生成密集表示。在这些实施方式中，第二遍transducer解码器进一步包括联合网络，该联合网络被配置为：接收由预测网络在多个输出步中的每个输出步处生成的密集表示、由第二编码器在多个输出步中的每个输出步处生成的第二高阶特征表示、以及由文本编码器在多个输出步中的每个输出步处生成的文本编码作为输入；以及在多个输出步中的每个输出步处，生成第二遍语音识别假设。

3、在一些示例中，第二编码器在不接收任何声学帧作为输入的情况下生成第二高阶特征表示。第一编码器可以包括因果编码器，该因果编码器包括多头注意力层的堆叠。多头注意力层的堆叠可以包括conformer层的堆叠。在一些实施方式中，第二编码器包括非因果编码器，该非因果编码器包括多头注意力层的堆叠。在这些实施方式中，多头注意力层的堆叠可以包括conformer层的堆叠。第二遍transducer解码器可以在不使用任何纯文本数据的情况下进行训练。

4、在一些示例中，接收由文本编码器在多个输出步中的每个输出步处生成的文本编码包括以流传输方式接收文本编码的部分序列。在这些示例中，第二遍transducer解码器可以进一步包括联合网络，该联合网络被配置为确定文本编码的部分序列与第二高阶特征表示的对应的部分之间的注意力上下文矢量。第一遍语音识别假设和第二遍语音识别假设可以各自对应于部分语音识别结果。

5、本公开的另一方面提供了一种计算机实现的方法，当在数据处理硬件上执行时，使数据处理硬件执行用于级联编码器的基于transducer的流传输推敲的操作。该操作包括接收声学帧的序列以及由第一编码器在多个输出步中的每个输出步处为声学帧的序列中的对应的声学帧生成第一高阶特征表示。该操作还包括由第一遍transducer解码器在多个输出步中的每个输出步处为对应的第一高阶特征表示生成第一遍语音识别假设。该操作还包括由文本编码器在多个输出步中的每个输出步处为对应的第一遍语音识别假设生成文本编码以及由第二编码器在多个输出步中的每个输出步处为对应的第一高阶特征表示生成第二高阶特征表示。该操作还包括由第二遍transducer解码器在多个输出步中的每个输出步处使用对应的第二高阶特征表示和对应的文本编码生成第二遍语音识别假设。

6、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，所述操作进一步包括：在所述多个输出步中的每个输出步处，由预测网络基于由最终softmax层输出的非空白符号的序列生成密集表示。这里，第一遍transducer解码器和第二遍transducer解码器共享预测网络。在一些示例中，操作进一步包括在多个输出步中的每个输出步处，由联合网络基于以下来生成第二遍语音识别假设：由预测网络在多个输出步中的每个输出步处生成的密集表示、由第二编码器在多个输出步中的每个输出步处生成的第二高阶特征表示、以及由文本编码器在多个输出步中的每个输出步处生成的文本编码。第二编码器可以在不接收任何声学帧作为输入的情况下生成第二高阶特征表示。

7、在一些实施方式中，第一编码器包括因果编码器，该因果编码器包括多头注意力层的堆叠。在这些实施方式中，多头注意力层的堆叠包括conformer层的堆叠。在一些示例中，第二编码器包括非因果编码器，该非因果编码器包括多头注意力层的堆叠。在这些示例中，多头注意力层的堆叠包括conformer层的堆叠。第二遍transducer解码器可以在不使用任何纯文本数据的情况下进行训练。在一些实施方式中，接收文本编码包括以流传输方式接收文本编码的部分序列。在这些实施方式中，操作可以进一步包括由联合网络确定文本编码的部分序列与第二高阶特征表示的对应部分之间的注意力上下文矢量。第一遍语音识别假设和第二遍语音识别假设可以各自对应于部分语音识别结果。

8、在下面的附图和描述中阐述本公开的一个或多个实施方式的细节。其他方面、特征和优点将通过描述和附图并且通过权利要求而显而易见。