技术新讯 > 乐器声学设备的制造及制作,分析技术 > 热词感知语音合成的制作方法  >  正文

热词感知语音合成的制作方法

  • 国知局
  • 2024-06-21 11:45:13

本公开涉及热词感知语音合成。

背景技术:

1、使能语音的环境(例如,家、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令,该系统字段化并回答查询和/或基于命令而执行功能。使能语音的环境可以使用分布在环境的不同房间或区域中的联网麦克风设备的网络来实施。这些设备可以使用热词来帮助辨别给定话语何时指向该系统,这与指向环境中存在的另一个体的话语相反。因此,设备可以在睡眠状态或休眠状态下操作,并且仅当检测到的话语包括热词时才唤醒。一旦设备被检测到的话语内的热词唤醒,设备就对热词和/或热词之后的一个或多个术语(term)执行进一步的处理。换句话说,热词和/或一个或多个术语形成将由设备执行的查询或话音命令。随着语音合成器在使能语音的环境内变得更加普遍,包含热词或包括听起来像热词的其他词/子词的合成话语可以使得设备从睡眠/休眠状态唤醒并开始处理合成话语,即使合成话语没有指向该设备。换句话说,合成语音会无意中激活设备,这常常令语音合成器的用户感到沮丧。因此,在环境内接收话语的系统必须具有某种方式来辨别指向该系统的人类语音的话语和从邻近设备输出的非指向该系统的合成语音的话语。

技术实现思路

1、一种用于阻止在用户设备上发起唤醒过程的方法。该方法包括:在语音合成设备的数据处理硬件处接收用于转换成合成语音的文本输入数据;以及通过数据处理硬件并使用被训练成检测分配给用户设备的至少一个热词的存在的热词感知模型来确定文本输入数据的发音是否包括热词,该热词当被包括在由用户设备接收的音频输入数据中时,被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。当文本输入数据的发音包括热词时,该方法还包括从文本输入数据生成音频输出信号,以及由数据处理硬件将音频输出信号提供给音频输出设备以输出音频输出信号。音频输出信号当被用户设备的音频捕获设备捕获时,被配置为阻止在用户设备上发起唤醒过程。

2、本公开的实施方式可以包括一个或多个以下可选特征。在一些实施方式中,确定文本输入数据的发音是否包括热词包括确定文本输入数据的词、子词或文本到语音序列中的至少一个的发音与热词相关联。热词感知模型可以在分配给用户设备的热词的文本到语音序列或音频表示上被训练。此外,文本输入数据可以包括第一语言,并且音频输出信号可以包括不同语言的文本输入数据的翻译。

3、在一些示例中,该方法还包括由数据处理硬件检测语音合成设备的操作环境内用户设备的存在;以及由数据处理硬件查询用户设备以获得分配给用户设备的用于训练热词感知模型的热词。附加地或替代地,该方法可以包括查询远程热词储存库,以至少获得分配给用户设备的用于训练热词感知模型的热词。

4、在一些实施方式中,从文本输入数据生成音频输出信号包括向音频输出信号插入水印,该水印表示音频输出信号对应于合成语音,并指示用户设备的热词检测器忽略对合成语音中的热词的检测。在其他实施方式中,生成音频数据包括确定表示对于文本输入数据的文本到语音输出的语音波形,并通过移除或改变与热词相关联的任何声音来改变语音波形,以规避由用户设备的热词检测器对热词的检测。在又一实施方式中,生成音频数据包括确定表示文本输入数据的语音波形,并对音频波形滤波以规避由用户设备的热词检测器对热词的检测。

5、本公开的另一方面提供了一种用于阻止在用户设备上发起唤醒过程的方法。该方法包括:在用户设备的热词检测器处接收包含热词的音频输入数据,热词被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程;由热词检测器使用热词检测器模型确定音频输入数据是否包括合成语音,热词检测器模型被配置为检测音频输入数据中的热词和合成语音的存在;以及当音频输入数据包括合成语音时,通过热词检测器阻止在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。

6、该方面可以包括一个或多个以下可选特征。在一些实施方式中,热词检测器模型在包括正训练样本和负训练样本的多个训练样本上被训练。正训练样本包括与说出分配给用户设备的热词的一个或多个用户相对应的人为生成的音频数据。负训练样本包括从一个或多个语音合成器设备输出的合成语音话语。在一些示例中,负训练样本的合成语音话语中的至少一个对分配给用户设备的热词发音。在其他示例中,负训练样本的合成语音话语中没有一个对分配给用户设备的热词发音。确定音频输入数据是否包括合成语音可以包括使用热词检测器模型通过分析音频输入数据的声学特征来检测音频输入数据中合成语音的存在,而不转录或语义解释音频输入数据。

7、本公开的另一方面提供了一种用于阻止在用户设备上发起唤醒过程的系统。该系统包括语音合成设备的数据处理硬件和与数据处理硬件通信的存储器硬件。该存储器硬件存储指令,该指令当被数据处理硬件运行时,使得数据处理硬件执行操作,所述操作包括:接收用于转换成合成语音的文本输入数据,以及使用被训练成检测分配给用户设备的至少一个热词的存在的热词感知模型来确定文本输入数据的发音是否包括热词,该热词当被包括在由用户设备接收的音频输入数据中时,被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。当文本输入数据的发音包括热词时,所述操作还包括从文本输入数据生成音频输出信号,以及将音频输出信号提供给音频输出设备以输出音频输出信号。音频输出信号当被用户设备的音频捕获设备捕获时,被配置为阻止在用户设备上发起唤醒过程。

8、本公开的实施方式可以包括一个或多个以下可选特征。在一些实施方式中,确定文本输入数据的发音是否包括热词包括确定文本输入数据的词、子词或文本到语音序列中的至少一个与热词相关联。热词感知模型可以在分配给用户设备的热词的文本到语音序列或音频表示上被训练。此外,文本输入数据可以包括第一语言,音频输出信号可以包括不同语言的文本输入数据的翻译。

9、在一些示例中,所述操作还包括检测语音合成设备的操作环境内用户设备的存在,以及查询用户设备以获得分配给用户设备的用于训练热词感知模型的热词。附加地或替代地,所述操作还可以包括查询远程热词储存库,以至少获得分配给用户设备的用于训练热词感知模型的热词,。

10、在一些实施方式中,从文本输入数据生成音频输出信号包括向音频输出信号插入水印,该水印表示音频输出信号对应于合成语音,并指示用户设备的热词检测器忽略对合成语音中的热词的检测。在其他实施方式中,生成音频数据包括确定表示对于文本输入数据的文本到语音输出的语音波形,并通过移除或改变与热词相关联的任何声音来改变语音波形,以规避由用户设备的热词检测器对热词的检测。在又一实施方式中,生成音频数据包括确定表示文本输入数据的语音波形,并对音频波形滤波以规避由用户设备的热词检测器对热词的检测。

11、本公开的另一方面提供了一种用于阻止在用户设备上发起唤醒过程的系统。该系统包括用户设备的数据处理硬件和与数据处理硬件通信的存储器硬件。该存储器硬件存储指令,该指令当被数据处理硬件运行时,使得数据处理硬件执行操作,所述操作包括:在用户设备的热词检测器处接收包含热词的音频输入数据,该热词被配置为在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程;由热词检测器使用热词检测器模型确定音频输入数据是否包括合成语音,该热词检测器模型被配置为检测音频输入数据中的热词和合成语音的存在;以及当音频输入数据包括合成语音时,通过热词检测器阻止在用户设备上发起用于处理音频输入数据中的热词和/或热词之后的一个或多个其他术语的唤醒过程。

12、该方面可以包括一个或多个以下可选特征。在一些实施方式中,热词检测器模型在包括正训练样本和负训练样本的多个训练样本上被训练。正训练样本包括与说出分配给用户设备的热词的一个或多个用户相对应的人为生成的音频数据。负训练样本包括从一个或多个语音合成器设备输出的合成语音话语。在一些示例中,负训练样本的合成语音话语中的至少一个对分配给用户设备的热词发音。在其他示例中,负训练样本的合成语音话语中没有一个对分配给用户设备的热词发音。确定音频输入数据是否包括合成语音可以包括使用热词检测器模型通过分析音频输入数据的声学特征来检测音频输入数据中合成语音的存在,而不转录或语义解释音频输入数据。

13、本公开的一个或多个实施方式的细节在附图和以下描述中阐述。从说明书和附图中以及从权利要求中,其他方面、特征和优点将是显而易见的。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23372.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。