技术新讯 > 乐器声学设备的制造及制作,分析技术 > 利用多任务语音模型的说话者验证的制作方法 > 正文

利用多任务语音模型的说话者验证的制作方法

国知局
2024-09-14 14:43:36

本公开涉及使用多任务语音模型的自动说话者验证。

背景技术：

1、在诸如家或汽车的支持语音的环境中，用户可以使用话音输入来访问信息和/或控制各种功能。信息和/或功能可以针对给定用户进行个性化。因此，在允许用户访问虚拟助理和电话话音接口之前识别给定说话者可以是有利的。说话者识别(例如，说话者验证和话音认证)为用户装置的注册用户提供了获得对用户装置的访问的简单方法。说话者识别允许注册用户通过说出话语来解锁和访问用户的装置，而无需注册用户手动录入(例如，经由键入或说出)密码来获得对用户装置的访问。说话者验证还允许数字助理根据说出的话语来识别注册用户，而无需用户提供授权凭证。在某些情况下，潜在攻击者使用语音合成算法以注册用户的话音来创建经合成语音，以欺骗说话者识别系统认证经合成语音以获得对用户的装置的访问或调用数字助理。在附加情况下，潜在攻击者还可以录制注册用户说出验证短语的音频，然后重放所录制的音频以获得对用户的装置的访问。因此，接收环境内的话语的系统必须具有辨别指向该系统的人类语音的话语和经合成语音的话语的某种方法。

技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上执行时使该数据处理硬件执行操作。该操作包括获得说话者识别(sid)模型，该sid模型被训练以从由不同说话者说出的话语预测说话者嵌入。sid模型包括经训练的音频编码器和经训练的sid头。该操作还包括接收包括源于人类的语音样本的集合和合成语音样本的集合的多个合成语音检测(ssd)训练话语。该操作还包括使用经训练的音频编码器在ssd训练话语上训练ssd头，以学习检测由经训练的音频编码器编码的音频编码中合成语音的存在，其中ssd头叠加在经训练的音频编码器上。该操作还包括提供用于对输入音频数据并行执行sid任务和ssd任务两者的多任务神经网络模型以供在计算装置上执行。这里，多任务神经网络模型包括经训练的音频编码器、叠加在经训练的音频编码器上的经训练的sid头，以及叠加在经训练的音频编码器上的经训练的ssd头

2、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，sid模型在多个sid训练数据集上被训练，每个sid训练数据集包括由m个不同说话者说出的多个sid训练话语。这里，由特定说话者说出的sid训练话语中的一个或多个可以与对应的目标说话者嵌入配对，以训练音频编码器和sid头，以学习如何预测特定说话者的对应说话者嵌入。此外，在这些实现方式中，sid训练集中的一个或多个sid训练集的多个sid训练话语可以包括m个不同说话者当中每个说话者说出的n个话语。可选地，每个sid训练数据集的多个sid训练话语可以包括人类生成的非合成语音。

3、在一些示例中，源于人类的语音样本的集合中的语音样本的数量大于合成语音样本的集合中的语音样本的数量。在其他示例中，在ssd训练话语上训练ssd头时，经训练的音频编码器的参数/权重被冻结。该音频编码器可以包括多头注意力模型架构。例如，多头注意力模型架构可以包含conformer块或transformer块的堆叠。该ssd头可以包括一个或多个全连接层。

4、在一些实现方式中，多任务神经网络模型被配置为通过以下方式对输入音频数据并行执行sid任务和ssd任务：接收输入音频数据作为经训练的音频编码器的输入；生成对输入音频数据进行编码的共享音频编码作为来自经训练的音频编码器的输出；将作为来自经训练的音频编码器的输出生成的共享音频编码提供给经训练的sid头和ssd头作为输入；生成表示由输入音频数据表征的话语的话音的特性的评估说话者嵌入作为来自经训练的sid头的输出；以及生成ssd分类分数作为来自经训练的ssd头的输出，该ssd分类分数指示由输入音频数据表征的话语是包括人类生成的真实语音还是合成语音。音频输入数据表征由一个或多个麦克风的阵列捕获的话语。在这些实现方式中，多任务神经网络模型可以被配置为：当评估说话者嵌入与和被授权访问资源的注册用户相关联的参考说话者嵌入相匹配并且作为来自经训练的ssd头的输出生成的ssd分类分数指示由输入音频数据表征的话语包括人类生成的真实语音时，授权访问一个或多个资源。附加地或可替选地，在这些实现方式中，多任务神经网络模型可以被配置为在以下中的至少一个情况下限制对一个或多个资源的访问：评估说话者嵌入中的至少一个与和被授权访问资源的注册用户相关联的任何参考说话者嵌入不匹配或者作为来自经训练的ssd头的输出生成的ssd分类分数指示由输入音频数据表征的话语包括合成语音。

5、本公开的另一方面提供了一种系统，该系统包括数据处理硬件和存储器硬件，该存储器硬件与数据处理硬件进行通信并且存储可在数据处理硬件上执行的指令，所述指令使数据处理硬件执行操作。该操作包括获得说话者识别(sid)模型，该sid模型被训练以从由不同说话者说出的话语预测说话者嵌入。sid模型包括经训练的音频编码器和经训练的sid头。该操作还包括接收包括源于人类的语音样本的集合和合成语音样本的集合的多个合成语音检测(ssd)训练话语。该操作还包括使用经训练的音频编码器在ssd训练话语上训练ssd头，以学习检测由经训练的音频编码器编码的音频编码中合成语音的存在，其中ssd头叠加在经训练的音频编码器上。该操作还包括提供用于对输入音频数据并行执行sid任务和ssd任务两者的多任务神经网络模型以供在计算装置上执行。这里，多任务神经网络模型包括经训练的音频编码器、叠加在经训练的音频编码器上的经训练的sid头，以及叠加在经训练的音频编码器上的经训练的ssd头。

6、本公开的该方面可以包括以下可选特征中的一个或多个。在一些实现方式中，sid模型在多个sid训练数据集上被训练，每个sid训练数据集包括由m个不同说话者说出的多个sid训练话语。这里，由特定说话者说出的sid训练话语中的一个或多个可以与对应的目标说话者嵌入配对，以训练音频编码器和sid头，以学习如何预测特定说话者的对应说话者嵌入。此外，在这些实现方式中，sid训练集中的一个或多个sid训练集的多个sid训练话语可以包括m个不同说话者当中每个说话者说出的n个话语。可选地，每个sid训练数据集的多个sid训练话语可以包括人类生成的非合成语音。

7、在一些示例中，源于人类的语音样本的集合中的语音样本的数量大于合成语音样本的集合中的语音样本的数量。在其他示例中，在ssd训练话语上训练ssd头时，经训练的音频编码器的参数/权重被冻结。该音频编码器可以包括多头注意力模型架构。例如，多头注意力模型架构可以包含conformer块或transformer块的堆叠。该ssd头可以包括一个或多个全连接层。

8、在一些实现方式中，多任务神经网络模型被配置为通过以下方式对输入音频数据并行执行sid任务和ssd任务：接收输入音频数据作为经训练的音频编码器的输入；生成对输入音频数据进行编码的共享音频编码作为来自经训练的音频编码器的输出；将作为来自经训练的音频编码器的输出生成的共享音频编码提供给经训练的sid头和ssd头作为输入；生成表示由输入音频数据表征的话语的话音的特性的评估说话者嵌入作为来自经训练的sid头的输出；以及生成ssd分类分数作为来自经训练的ssd头的输出，该ssd分类分数指示由输入音频数据表征的话语是包括人类生成的真实语音还是合成语音。音频输入数据表征由一个或多个麦克风的阵列捕获的话语。在这些实现方式中，多任务神经网络模型可以被配置为：当评估说话者嵌入与和被授权访问资源的注册用户相关联的参考说话者嵌入相匹配并且作为来自经训练的ssd头的输出生成的ssd分类分数指示由输入音频数据表征的话语包括人类生成的真实语音时，授权访问一个或多个资源。附加地或可替选地，在这些实现方式中，多任务神经网络模型可以被配置为在以下中的至少一个情况下限制对一个或多个资源的访问：评估说话者嵌入中的至少一个与和被授权访问资源的注册用户相关联的任何参考说话者嵌入不匹配或者作为来自经训练的ssd头的输出生成的ssd分类分数指示由输入音频数据表征的话语包括合成语音。

9、本公开的一个或多个实现方式的细节在附图和下面的描述中阐述。根据说明书和附图以及权利要求，其他方面、特征和优点将显而易见。