技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于自动语音辨识的联合声学回声消除、语音增强和话音分离的制作方法 > 正文

用于自动语音辨识的联合声学回声消除、语音增强和话音分离的制作方法

国知局
2024-06-21 11:40:35

本公开涉及用于自动语音辨识的联合声学回声消除、语音增强和话音分离。

背景技术：

1、随着基于神经网络的端到端模型、大规模训练数据和用于增强训练数据的改进策略的出现，自动语音辨识(asr)系统的稳健性多年来已经显著改善。然而，诸如回声、更苛刻背景噪声和争挤(competing)语音之类的各种条件显著地劣化了asr系统的性能。虽然可以训练单独的asr模型来处理这些条件，但是维护多个特定于任务/条件的asr模型以及在使用期间即时在模型之间切换的难度是不切实际的。

技术实现思路

1、本公开的一个方面提供了一种用于使用联合声学回声消除、语音增强和话音分离的自动语音辨识的计算机实现的方法。计算机实现的方法在数据处理硬件上执行时使数据处理硬件执行操作，该操作包括在上下文前端(contextual frontend)处理模型处，接收对应于目标话语的输入语音特征。操作还包括在上下文前端处理模型处接收以下中的至少一个：参考音频信号、包括目标话语之前的噪声的上下文噪声信号、或包括说出目标话语的目标说话者的话音特性的说话者嵌入。操作还包括使用上下文前端处理模型，处理参考音频信号、上下文噪声信号或说话者嵌入向量中的至少一个以及输入语音特征，以生成增强语音特征。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，上下文前端处理模型包括将卷积和自注意力进行组合以建模短程(short-range)和长程(long-range)交互的confromer神经网络架构。在一些示例中，处理参考音频信号、上下文噪声信号或嵌入向量中的至少一个以及输入语音特征包括：使用主编码器，处理输入语音特征以生成主输入编码；以及使用噪声上下文编码器，处理上下文噪声信号以生成上下文噪声编码。这些示例还包括：使用交叉注意力编码器，处理主输入编码和上下文噪声编码以生成交叉注意力嵌入；以及将交叉注意力嵌入解码为与目标话语相对应的增强语音特征。在这些示例中，处理输入语音特征以生成主输入编码可以进一步包括处理与对应于参考音频信号的参考特征堆叠的输入语音特征以生成主输入编码。输入语音特征和参考特征可以各自包括对数梅尔滤波器组能量(lfbe)特征的相应序列。

3、在这些示例中，处理输入特征以生成主输入编码可以包括使用特征方面的(feature-wise)线性调制(film)将输入语音特征与说话者嵌入向量进行组合以生成主输入编码。这里，处理主输入编码和上下文噪声编码以生成交叉注意力嵌入包括：使用film将主输入编码与说话者嵌入向量进行组合以生成调制主输入编码；以及处理调制主输入编码和上下文噪声编码以生成交叉注意力嵌入。附加地或可替选地，主编码器可以包括n个调制conformer块；噪声上下文编码器可以包括n个conformer块并且与主编码器并行地执行；以及交叉注意力可以包括m个调制交叉注意力conformer块。

4、在一些实施方式中，数据处理硬件执行上下文前端处理模型并且驻留在用户设备上。该用户设备被配置为经由用户设备的音频扬声器来输出参考音频信号作为回放音频；以及经由用户设备的一个或多个麦克风来捕获目标话语、参考音频信号和上下文噪声信号。在一些示例中，上下文前端处理模型是使用频谱损失和asr损失来与后端(backend)自动语音辨识(asr)模型联合地训练的。在这些示例中，频谱损失是基于估计比率掩码与理想比率掩码之间的l1损失函数和l2损失函数距离。这里，理想比率掩码是使用混响语音和混响噪声来计算的。

5、附加地，在这些示例中，asr损失可以由以下各项计算：使用被配置为接收由上下文前端处理模型针对训练话语预测的增强语音特征作为输入的asr模型的asr编码器，生成针对增强语音特征的asr编码器的预测输出；使用被配置为接收针对训练话语的目标语音特征作为输入的asr编码器，生成针对目标语音特征的asr编码器的目标输出；以及基于针对增强语音特征的asr编码器的预测输出和针对目标语音特征的asr编码器的目标输出来计算asr损失。在一些实施方式中，操作还包括使用后端语音系统来处理与目标话语相对应的增强语音特征。在这些实施方式中，后端语音系统可以包括自动语音辨识(asr)模型、热词检测模型、或音频或音频-视频呼叫应用中的至少一个。

6、本公开的另一方面提供了一种用于使用联合声学回声消除、语音增强和话音分离的自动语音辨识的上下文前端处理模型，其包括主编码器、噪声上下文编码器、交叉注意力编码器和解码器。主编码器接收与目标话语相对应的输入语音特征作为输入，并且生成主输入编码作为输出。噪声上下文编码器接收包括目标话语之前的噪声的上下文噪声信号作为输入，并且生成上下文噪声编码作为输出。交叉注意力编码器接收被生成为来自主编码器的输出的主输入编码和被生成为来自噪声上下文编码器的输出的上下文噪声编码作为输入，并且生成交叉注意力嵌入作为输出。解码器将交叉注意力嵌入解码为与目标话语相对应的增强输入语音特征。

7、该方面可以包括以下可选特征中的一个或多个。在一些示例中，主编码器还被配置为接收对应于参考音频信号的参考特征作为输入，并且通过处理与参考特征一起堆叠的输入语音特征来生成主输入编码作为输出。输入语音特征和参考特征可以各自包括对数梅尔滤波器组能量(lfbe)特征的相应序列。在一些实施方式中，主编码器还被配置为接收包括说出目标话语的目标说话者的话音特性的说话者嵌入作为输入，并且通过使用特征方面的线性调制(film)将输入语音特征与说话者嵌入进行组合以生成主输入编码作为输出。

8、在一些示例中，交叉注意力编码器还被配置为接收由说话者嵌入使用特征方面的线性调制(film)调制的主输入编码作为输入，说话者嵌入包括说出目标话语的目标说话者的话音特性，并且处理通过说话者嵌入调制的主输入编码以及上下文噪声编码以生成交叉注意力嵌入作为输出。在一些实施方式中，主编码器包括n个调制conformer块，上下文噪声编码器包括n个conformer块并且与主编码器并行地执行；以及交叉注意力编码器包括m个调制交叉注意力conformer块。在一些示例中，上下文前端处理模型在驻留在用户设备上的数据处理硬件上执行。这里，用户设备被配置为经由用户设备的音频扬声器输出参考音频信号作为回放音频，并且经由用户设备的一个或多个麦克风捕获目标话语、参考音频信号和上下文噪声信号。

9、在一些实施方式中，上下文前端处理模型是使用频谱损失和asr损失来与后端自动语音辨识(asr)模型联合地训练的。在这些实施方式中，频谱损失可以基于估计比率掩码与理想比率掩码之间的l1损失函数和l2损失函数距离。这里，理想比率掩码是使用混响语音和混响噪声来计算的。附加地，在这些实施方式中，asr损失是通过以下来计算的：接收由上下文前端处理模型针对训练话语预测的增强语音特征作为输入，asr编码器针对增强语音特征的预测输出，使用被配置为接收针对训练话语的目标语音特征作为输入的asr编码器，生成针对目标语音特征的asr编码器的目标输出；以及基于针对增强语音特征的asr编码器的预测输出和针对目标语音特征的asr编码器的目标输出来计算asr损失。在一些示例中，后端语音系统被配置为处理与目标话语相对应的增强输入语音特征。在这些实施方式中，后端语音系统可以包括自动语音辨识(asr)模型、热词检测模型、或音频或音频-视频呼叫应用中的至少一个。

10、在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求书，其他方面、特征和优点将是明显的。