技术新讯 > 乐器声学设备的制造及制作,分析技术 > 混合多语种的文本相关和文本无关说话者确认的制作方法  >  正文

混合多语种的文本相关和文本无关说话者确认的制作方法

  • 国知局
  • 2024-06-21 10:39:30

本公开涉及混合多语种的文本相关和文本无关说话者确认。

背景技术:

1、在语音启用的环境中(例如家庭或汽车),用户可以使用语音输入来访问信息和/或控制各种功能。信息和/或功能可以针对给定用户进行个性化。因此,从与语音启用的环境相关联的一组说话者中识别给定的说话者可能是有利的。

2、说话者确认(例如,语音认证)为用户设备的用户提供了一种简单的方式来获得对用户设备的访问。说话者确认允许用户通过说出话语来解锁和访问用户的设备,而不需要用户手动输入(例如,通过键入)通行码来获得对用户设备的访问。然而,多种不同语言、方言、口音等的存在给说话者确认带来了一定的挑战。

技术实现思路

1、本公开的一个方面提供了一种用于说话者确认的计算机实施的方法,当在数据处理硬件上执行时,使得所述数据处理进行操作,包括接收对应于由用户设备捕获的话语的音频数据。所述话语包括预定的热词,所述热词后接指定要进行的动作的查询。所述操作还包括使用文本相关说话者确认(td-sv)模型来处理表征所述预定的热词的所述音频数据的第一部分,以生成表示所述热词的所述话语的语音特征的文本相关评估向量,并生成一个或多个文本相关置信度分数。每个文本相关置信度分数指示所述文本相关评估向量匹配一个或多个文本相关参考向量中相应的一个的可能性,并且每个文本相关参考向量与所述用户设备的一个或多个不同注册用户中相应的一个相关联。所述操作进一步包括确定所述一个或多个文本相关置信度分数中的任意一个是否满足置信度阈值。当所述文本相关置信度分数中的一个满足所述置信度阈值时,所述操作包括识别所述话语的说话者为相应的注册用户,所述相应的注册用户与对应于满足所述置信度阈值的所述文本相关置信度分数的所述文本相关参考向量相关联,并且启动由所述查询指定的所述动作的进行,而不对表征所述热词之后的所述查询的所述音频数据的第二部分进行说话者确认。当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时,所述操作包括向文本无关说话者确认器提供指令。所述指令在由所述文本无关说话者确认器接收时,使得所述文本无关说话者确认器使用文本无关说话者确认(ti-sv)模型来处理表征所述查询的所述音频数据的所述第二部分,以生成文本无关评估向量。所述操作进一步包括生成一个或多个文本无关置信度分数,每个文本无关置信度分数指示所述文本无关评估向量匹配一个或多个文本无关参考向量中相应的一个的可能性。每个文本无关参考向量与所述用户设备的所述一个或多个不同注册用户中相应的一个相关联。所述操作还进一步包括基于所述一个或多个文本相关置信度分数和所述一个或多个文本无关置信度分数,确定说出所述话语的所述说话者的所述身份是否包括所述用户设备的所述一个或多个不同注册用户中的任意一个。

2、本公开的实现可以包括一个或多个以下可选特征。在一些实施方式中,所述用户设备的所述一个或多个不同注册用户中的每一个都具有访问不同的相应的个人资源集合的许可,并且由所述查询指定的所述动作的进行需要访问与被识别为所述话语的所述说话者的所述相应的注册用户相关联的所述相应的个人资源集。在一些示例中,所述数据处理硬件执行所述td-sv模型,并驻留在所述用户设备上,并且所述文本无关说话者确认器执行所述ti-si模型,并驻留在通过网络与所述用户设备通信的分布式计算系统上。在这些示例中,当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时,向所述文本无关说话者确认器提供所述指令包括,将所述指令和所述一个或多个文本相关置信度分数从所述用户设备发送到所述分布式计算系统。

3、在一些实施方式中,所述数据处理硬件驻留在所述用户设备或通过网络与所述用户设备通信的分布式计算系统中的一个上。这里,所述数据处理硬件执行所述td-sv模型和所述ti-sv模型两者。在一些示例中,所述ti-sv模型比所述td-sv模型的计算量更大。在一些实施方式中,所述操作进一步包括使用热词检测模型来检测所述音频数据中的所述查询之前的所述预定的热词,其中,表征所述预定的热词的所述音频数据的所述第一部分由所述热词检测模型提取。

4、在一些示例中,在多个训练数据集上训练所述td-sv模型和所述ti-sv模型。每个训练数据集与不同的相应的语言或方言相关联,并且包括由不同说话者以所述相应的语言或方言说出的对应的训练话语。每个对应的训练话语包括表征所述预定的热词的文本相关部分和表征所述预定的热词之后的查询语句的文本无关部分。这里,所述td-sv模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本相关部分上被训练,以及所述ti-sv模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本无关部分上被训练。在这些示例中,与所述其他训练数据集的所述对应的训练话语相比,以与至少一个所述训练数据集相关联的所述相应的语言或方言说出的所述对应的训练话语对所述预定的热词的发音可以不同。在一些额外的示例中,所述ti-sv模型在所述多个训练数据集中的一个或多个中的至少一个对应的训练话语的所述文本相关部分上被训练。额外地或可代替地,由所述训练话语的所述文本无关部分表征的所述查询语句包括可变的语言内容。

5、在一些实施方式中,当生成所述文本无关评估向量时,所述文本无关说话者确认器使用所述ti-sv模型来处理表征所述预定的热词的所述音频数据的所述第一部分和表征所述查询的所述音频数据的所述第二部分。额外地或可代替地,响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的所述预定的热词的一个或多个先前话语,所述一个或多个文本相关参考向量中的每一个可以由所述td-sv模型生成。响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的一个或多个先前话语,所述一个或多个文本无关参考向量中的每一个可以由所述ti-sv模型生成。

6、本公开的另一方面提供了一种用于说话者确认的系统。所述系统包括数据处理硬件和与所述数据处理硬件通信的存储器硬件。所述存储器硬件存储指令,当所述指令在所述数据处理硬件上被执行时,使所述数据处理硬件进行操作。所述操作包括接收对应于由用户设备捕获的话语相的音频数据。所述话语包括预定的热词,所述热词后接指定要进行的动作的查询。所述操作还进一步包括使用文本相关说话者确认(td-sv)模型来处理表征所述预定的热词的所述音频数据的第一部分,以生成表示所述热词的所述话语的语音特征的文本相关评估向量,并生成一个或多个文本相关置信度分数。每个文本相关置信度分数指示所述文本相关评估向量匹配一个或多个文本相关参考向量中相应的一个的可能性,并且每个文本相关参考向量与所述用户设备的一个或多个不同注册用户中相应一个相关联。所述操作进一步包括确定所述一个或多个文本相关置信度分数中的任意一个是否满足置信度阈值。当所述文本相关置信度分数中的一个满足所述置信度阈值时,所述操作包括识别所述话语的说话者识别为所述相应的注册用户,所述相应的注册用户与对应于满足所述置信度阈值的所述文本相关置信度分数的所述文本相关参考向量相关联,并且启动由所述查询指定的所述动作的进行,而不对表征所述热词之后的所述查询的所述音频数据的第二部分进行说话者确认。当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时,所述操作包括向文本无关说话者确认器提供指令。所述指令在由所述文本无关说话者确认器接收时,使得所述文本无关说话者确认器使用文本无关说话者确认(ti-sv)模型来处理表征所述查询的所述音频数据的所述第二部分,以生成文本无关评估向量。所述操作进一步包括生成一个或多个文本无关置信度分数,每个文本无关置信度分数指示所述文本无关评估向量匹配一个或多个文本无关参考向量中相应的一个的可能性。每个文本无关参考向量与所述用户设备的所述一个或多个不同注册用户中相应的一个相关联。所述操作还包括基于所述一个或多个文本相关置信度分数和所述一个或多个文本无关置信度分数,确定说出所述话语的所述说话者的所述身份是否包括所述用户设备的所述一个或多个不同注册用户中的任意一个。

7、这个方面可以包括一个或多个以下可选特征。在一些实施方式中,所述用户设备的所述一个或多个不同注册用户中的每一个都具有访问不同的相应个人资源集的许可,并且由所述查询指定的所述动作的进行需要访问与被识别为所述话语的所述说话者的所述相应的注册用户相关联的所述相应的个人资源集。在一些示例中,所述数据处理硬件执行所述td-sv模型,并驻留在所述用户设备上,以及所述文本无关说话者确认器执行所述ti-si模型,并驻留在通过网络与所述用户设备通信的分布式计算系统上。在这些示例中,当所述一个或多个文本相关置信度分数都不满足所述置信度阈值时,向所述文本无关说话者确认器提供所述指令包括将所述指令和所述一个或多个文本相关置信度分数从所述用户设备发送到所述分布式计算系统。

8、在一些实施方式中,所述数据处理硬件驻留在所述用户设备或通过网络与所述用户设备通信的分布式计算系统中的一个上。这里,所述数据处理硬件执行所述td-sv模型和所述ti-sv模型两者。在一些示例中,所述ti-sv模型比所述td-sv模型的计算量更大。在一些实施方式中,所述操作进一步包括使用热词检测模型来检测所述音频数据中的所述查询之前的所述预定的热词,其中,表征所述预定的热词的所述音频数据的所述第一部分由所述热词检测模型提取。

9、在一些示例中,在多个训练数据集上训练所述td-sv模型和所述ti-sv模型。每个训练数据集与不同的相应的语言或方言相关联,并且包括由不同说话者以所述相应的语言或方言说出的对应的训练话语。每个对应的训练话语包括表征所述预定的热词的文本相关部分和表征预定的热词之后的查询语句的文本无关部分。这里,所述td-sv模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本相关部分上被训练,以及所述ti-sv模型在所述多个训练数据集中的每个训练数据集中的每个对应的训练话语的所述文本无关部分上被训练。在这些示例中,与所述其他训练数据集的所述相应的训练话语相比,以与至少一个所述训练数据集相关联的所述相应的语言或方言说出的所述对应的训练话语对所述预定的热词的发音可以不同。在一些额外的示例中,所述ti-sv模型在所述多个训练数据集中的一个或多个中的至少一个对应的训练话语的所述文本相关部分上被训练。额外地或可代替地,由所述训练话语的所述文本无关部分表征的所述查询语句包括可变的语言内容。

10、在一些实施方式中,当生成所述文本无关评估向量时,所述文本无关说话者确认器使用所述ti-sv模型来处理表征所述预定的热词的所述音频数据的所述第一部分和表征所述查询的所述音频数据的所述第二部分。额外地或可代替地,响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的所述预定的热词的一个或多个先前话语,所述一个或多个文本相关参考向量中的每一个由所述td-sv模型生成。响应于接收到由所述用户设备的所述一个或多个不同注册用户中的所述相应的一个注册用户说出的一个或多个先前话语,所述一个或多个文本无关参考向量中的每一个可以由所述ti-sv模型生成。

11、在附图和以下说明中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求书,其他方面、特征和优点将变得显而易见。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20998.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。