使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆的制作方法
- 国知局
- 2024-06-21 11:30:12
背景技术:
1、自动语音识别系统和其他语音处理系统用于处理和解码音频数据,以检测语音话语(例如,单词、短语和/或句子)。随后,经处理的音频数据被用于各种下游任务,诸如基于搜索的查询、语音到文本的转录、语言翻译等。相反,文本到语音(tts)系统被用于检测基于文本的话语,并随后生成与检测到的基于文本的话语相对应的模拟口语语言话语。
2、在大多数tts系统中,原始文本被标记为单词和/或发音单元。然后,每个单词或发音单元都与特定的发音转录和韵律单元相关联,从而形成文本的语言学的表示。发音转录包含关于如何向发音单元发音的信息,而韵律单元包含关于较大语音单元的信息,包括语调、重音、节奏、音色、语速等。一旦生成了语言学的表示,合成器或声码器就能够将语言学的表示转换为人耳可听见和可识别的合成语音。
3、通常,传统tts系统需要大量标记的训练数据,首先用于将tts系统训练为独立于说话者和/或多语言tts系统。然而,还需要大量的标记日期,特别是在tts系统以前没有针对新的说话者和/或新的语言被训练时个性化tts系统的情况下。鉴于上述情况,目前需要改进的系统和方法来构建和使用低延迟、高质量的个性化tts系统来从基于文本的输入生成合成语音。
4、本文中所要求保护的主题不限于解决任何缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反,提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性技术领域。
技术实现思路
1、所公开的实施例包括用于执行tts处理以及用于生成和利用被配置成零样本学习(zero-shot)的机器学习模块的系统、方法和设备,所述机器学习模块被个性化以促进从基于文本的输入生成将用于生成合成语音的个性化声音。
2、一些公开的实施例包括机器学习模型,所述机器学习模型被配置成当机器学习模型尚未被应用于与新的目标说话者相关联的任何目标参考语音时为该新的目标说话者生成个性化声音。这些机器学习模型包括零样本学习的经个性化的文本到语音模型,该文本到语音模型包括特征提取器、说话者编码器和文本到语音模块。
3、特征提取器被配置成从与新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。
4、说话者编码器被配置成基于从该新的目标参考语音提取的所述声学特征来生成与该新的目标说话者相对应的说话者嵌入。
5、文本到语音模块被配置成基于该新的目标说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
6、在这些实施例中,特征提取器、说话者编码器和文本到语音模块在机器学习模型中以串行架构进行配置,使得将特征提取器提取的声学特征作为输入提供给说话者编码器,并使得将(i)特征提取器提取的韵律特征和(ii)说话者编码器生成的说话者嵌入提供给文本到语音模块。这将机器学习模型配置成零样本学习的经个性化的文本到语音模型,其被配置成响应于将机器学习模型应用于新的参考语音(诸如新的目标参考语音)作为模型输入而生成针对新的目标说话者的个性化声音作为模型输出。
7、所公开的系统还被配置用于使用上述零样本学习的文本到语音模型为新的目标说话者生成个性化声音。这些系统访问所描述的模型并接收与新的目标说话者相关联的新的目标参考语音,并从新的目标参照语音中提取声学特征和韵律特征。随后,系统使用零样本学习的经个性化的文本到语音模型的说话者编码器来基于声学特征生成与新的目标说话者相对应的说话者嵌入。最后,系统能够基于该说话者嵌入和该韵律特征为该新的目标说话者生成该个性化声音。
8、所公开的系统还被配置成促进创建上述零样本学习的个人文本到语音模型。例如,此类系统包括可由远程计算系统的一个或多个处理器执行的第一计算机可执行指令集,其用于使得远程计算系统执行与创建零样本学习的个人文本到语音模型的方法相关联的多个动作,以及可由远程计算系统的一个或多个处理器执行的第二计算机可执行指令集,其用于使得该远程计算系统向该远程计算系统发送该第一计算机可执行指令集。
9、第一指令可执行以用于使远程系统访问特征提取器、说话者编码器和文本到语音模块。第一指令也可执行以用于使远程系统以串行架构编译特征提取器、说话者编码器和文本到语音模块,作为零样本学习的个人文本到语音模型,使得将由特征提取器提取的声学特征作为输入提供给说话者编码器,并使得将(i)由特征提取器提取的韵律特征和(ii)说话者编码器生成的说话者嵌入被提供作为对该文本到语音模块的输入。
10、此外,一些公开的系统被配置成使得第一计算机可执行指令集进一步包括用于使远程系统在生成零样本学习的个人文本到语音模型之前,将文本到语音模块应用于多说话者多语言训练语料库以不仅使用tts损失(诸如mel频谱、音高和/或历时损失)还使用说话者循环一致性训练损失来训练该文本到语音模块的指令。
11、一些公开的实施例还涉及用于生成和使用跨语言零样本学习的个人文本到语音模型的系统和方法。在此类实施例中,例如,文本到语音模块被进一步配置成基于该说话者嵌入、该韵律特征和语言嵌入来生成与该新的目标说话者相对应的该个性化声音,使得该机器学习模型被配置成跨语言的零样本学习的经个性化的文本到语音模型,该文本到语音模型能够通过使用与该新的目标说话者相关联的该个性化声音来生成与对应于该新的目标参考语音的第一语言不同的第二语言的语音。
12、提供本技术实现要素:以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于帮助确定所要求保护的主题的范围。
13、附加特征和优点将在以下描述中阐述,且部分会从描述中显而易见,或者可以通过实践本文中的示教来习得。本发明的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征将从以下描述和所附权利要求书中变得更完全的显见,或者可以通过如下文所阐述的本发明的实践来习得。
技术特征:1.一种被配置成实例化机器学习模型的计算系统,所述机器学习模型能够响应于将所述机器学习模型应用于来自新的目标说话者的目标参考语音而为新的目标说话者生成个性化声音,所述计算系统包括:
2.如权利要求1所述的计算系统,其特征在于,所述声学特征包括梅尔谱图。
3.如权利要求1所述的计算系统,其特征在于,所述韵律特征包括基频或能量中的一者或多者。
4.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成:
5.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成捕捉残差韵律特征并生成风格标记。
6.如权利要求5所述的计算系统,其特征在于,所述机器学习模型被进一步配置成捕捉与新的目标说话者相关联的说话速率。
7.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成基于所述说话者嵌入、所述韵律特征和语言嵌入来生成与所述新的目标说话者相对应的所述个性化声音,使得所述机器学习模型被配置成跨语言个性化文本到语音模型,所述跨语言个性化文本到语音模型能够通过使用与所述新的目标说话者相关联的所述个性化声音来生成与对应于所述新的目标参考语音的第一语言不同的第二语言的语音。
8.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成对所述新的目标参考语音进行去噪。
9.一种用于使用零样本学习的经个性化的文本到语音模型为新的目标说话者生成个性化声音的方法,所述方法包括:
10.如权利要求9所述的方法,其特征在于,进一步包括:
11.如权利要求10所述的方法,其特征在于,所述新的目标参考语音包括第一语言的口语语言话语,并且所述新的输入文本包括第二语言的基于文本的语言话语,所述方法进一步包括:
12.如权利要求9所述的方法,其特征在于,所述特征提取器被进一步配置成在提取所述声学特征和所述韵律特征之前对所述新的目标参考语音进行去噪。
13.一种被配置成便于创建零样本学习个人文本到语音模型的系统,所述系统包括:
14.如权利要求13所述的系统,其特征在于,所述第一计算机可执行指令集进一步包括用于所述远程计算系统执行所述第一计算机可执行指令集以生成所述零样本学习个人文本到语音模型的指令。
15.如权利要求14所述的系统,其特征在于,所述第一计算机可执行指令集进一步包括用于使所述远程系统在生成所述零样本学习个人文本到语音模型之前将所述文本到语音模块应用于多说话者多语言训练语料库以使用说话者循环一致性训练损失来训练所述文本到语音模块的指令。
技术总结提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。技术研发人员:李博涵,何磊,邓妍,刘冰,刘砚清,赵晟受保护的技术使用者:微软技术许可有限责任公司技术研发日:技术公布日:2024/2/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21905.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。