技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音克隆方法、装置及相关设备与流程 > 正文

一种语音克隆方法、装置及相关设备与流程

国知局
2024-06-21 10:39:37

本技术涉及人工智能，尤其涉及一种语音克隆方法、装置及相关设备。

背景技术：

1、语音克隆，是一种根据目标对象(如克隆人类)的原始语音，生成与原始语音在音色等发音特征上相似的新语音的技术，达到克隆目标对象发音的效果，在虚拟人、有声读物、视频创作等场景中存在广泛应用。

2、但是，目前的语音克隆技术，仅能在生成的新语音中实现克隆目标对象发音的音色，难以比拟目标对象在真实场景中的发音效果，从而导致克隆效果较差。

技术实现思路

1、有鉴于此，本技术实施例提供了一种语音克隆方法，以提升针对目标对象的语音克隆效果。本技术还提供了对应的装置、计算设备集群、计算机可读存储介质以及计算机程序产品。

2、第一方面，本技术实施例提供了一种语音克隆方法，该方法可以由语音克隆装置执行，具体地，语音克隆装置确定目标场景，如将用户指定的故事场景确定为目标场景等，并根据该目标场景，确定属于目标场景的目标语料文本，然后根据该目标语料文本，确定目标对象的音频，该音频的语音内容与目标语料文本的内容相匹配，从而语音克隆装置利用该目标语料文本以及目标对象的音频，训练目标场景对应的语音克隆模型，该语音克隆模型用于输出模拟目标对象在目标场景下发音的音频。

3、由于语音克隆模型是基于目标对象针对目标场景下的语料文本的发音音频进行训练得到，这使得语音克隆模型根据文本所输出的新的语音，在音色、韵律和发音风格等方面的特征，能够更加符合目标对象在目标场景下的真实发音情况，以此可以有效提高语音克隆效果。

4、实际应用时，可以利用上述方式生成用于模拟输出各个对象在各个场景下发音韵律和风格的语音克隆模型，以便利用这些语音克隆模型提高语音克隆的真实性和多样性。

5、进一步地，语音克隆装置在训练得到的语音克隆模型后，可以利用该语音克隆模型输出一段文本对应的音频，以实现对目标对象的语音克隆。

6、在一种可能的实施方式中，目标语料文本的内容语境与目标场景所指示的语境相匹配，比如，当目标场景为故事场景时，目标语料文本例如可以是故事内容的语料文本。示例性地，目标场景可以是对话场景、新闻场景、财经场景、直播场景、故事场景、教育场景、或演讲场景中任意一种，或者，目标对象为根据情绪类型进行划分所得到的场景，如悲伤场景、高兴场景等。实际应用时，目标场景也可以是其它可适用的场景。

7、在一种可能的实施方式中，语音克隆装置在确定属于目标场景的语料文本时，具体可以是先获取属于目标场景的多个语料文本的拼音分布，该拼音分布例如可以是该多个语料文本中各个拼音的数量分布等，从而语音克隆装置可以根据该多个语料文本的拼音分布，从多个语料文本中选取目标语料文本，该目标语料文本的数量少于多个语料文本的数量，并且，该目标语料文本的拼音分布与该多个语料文本的拼音分布满足预设条件，如两个拼音分布之间的方差或者标准差小于阈值等。由于不同场景下的语料文本的拼音分布之间通常存在差异，因此，每个场景下的拼音分布可以作为该场景的代表性特征，从而基于拼音分布选取目标语料文本，可以使得该目标语料文本也能符合该场景下的语料特征，进而基于该目标语料文本训练语音克隆模型，可以提高该语音克隆模型的语音克隆效果。

8、在一种可能的实施方式中，语音克隆装置在确定属于目标场景的语料文本时，具体可以是从属于该目标场景的多个语料文本中选取目标语料文本，该目标语料文本中专业术语的占比大于比例阈值。这样，利用所选取的目标语料文本训练语音克隆模型后，该语音克隆模型所输出的音频中对于专业术语的发音表达内容可以更加流畅，符合目标对象在真实针对该专业术语的真实发音，从而可以提高语音克隆效果。

9、在一种可能的实施方式中，语音克隆装置在根据目标语料文本确定属于该目标场景的目标对象的音频时，具体可以是生成录音界面，该录音界面用于将目标语料文本呈现给目标对象，从而目标对象可以根据录音界面所呈现的目标语料文本进行发音。相应地，语音克隆装置对目标对象的发音进行录音，得到该目标对象的音频。如此，语音克隆装置可以通过采集目标对象发音的方式，获得该目标对象的音频，以便后续基于获取的音频实现对语音克隆模型的训练。

10、在一种可能的实施方式中，语音克隆装置在根据目标语料文本确定属于该目标场景的目标对象的音频时，具体可以是获取目标对象中在目标场景下发音的多个音频，从而语音克隆装置可以从多个音频中确定语音内容与该目标语料文本的内容相匹配的音频。比如，语音克隆装置可以从网络中获取目标对象在公共场合下(并且属于目标场景)的多个音频，从而语音克隆装置可以通过内容匹配的方式，确定与该目标语料文本在内容上相匹配的目标对象的音频。如此，在用户指示目标场景后，目标对象可以无需再通过录音的方式与语音克隆装置进行交互，以此简化实现语音克隆所需执行的交互操作，提高用户体验。

11、在一种可能的实施方式中，语音克隆装置在确定目标场景时，具体可以是生成场景配置界面，该场景配置界面用于将多个候选场景呈现给用户，以便用户对该多个候选场景进行选择，从而语音克隆装置可以从多个候选场景中确定该用户选择的目标场景。如此，语音克隆装置可以基于用户的指定，确定语音克隆的发音场景，从而可以提高语音克隆场景的可选性，提高用户体验。

12、在一种可能的实施方式中，语音克隆装置在确定目标场景时，具体可以是生成场景配置界面，该场景配置界面用于提示用户输入其所定义的目标场景的标识(如名称)以及属于该目标场景的语料文本，从而语音克隆装置可以响应于用户针对该场景配置界面的操作，获取该用户定义的目标场景的标识以及属于该目标场景的语料文本。如此，语音克隆装置可以支持用户对于语音克隆的发音场景的自定义，从而可以提高语音克隆的灵活性，提高用户体验。

13、在一种可能的实施方式中，语音克隆装置还可以生成测试界面，该测试界面用户提示用户输入文本，然后，语音克隆装置可以响应于用户针对该测试界面的操作，获取用户输入的目标文本，并将该目标文本输入至该语音克隆模型，得到该语音克隆模型输出的音频。如此，用户可以根据语音克隆模型输出的音频评判语音克隆模型对于目标对象在目标场景下发音的克隆效果，以便在克隆效果较差时通过模型再训练等方式来进一步提高语音克隆效果。

14、第二方面，本技术实施例还提供了一种语音克隆方法，该方法可以由语音克隆装置执行，具体地，语音克隆装置接收用户输入的目标场景的目标文本，如接收用户输入的故事场景以及该故事文本等，然后，语音克隆可以根据该目标场景确定该目标场景对应的语音克隆模型，并基于该语音克隆模型输出和该目标文本对应的目标音频，该语音克隆模型用于输出模拟目标对象在目标场景下发音的音频。

15、如此，语音克隆模型根据目标文本所输出的新的语音，在音色、韵律和发音风格等方面的特征，能够更加符合目标对象在目标场景下的真实发音情况，以此可以有效提高语音克隆效果。

16、在一种可能的实施方式中，目标语料文本的内容语境与目标场景所指示的语境相匹配，比如，当目标场景为故事场景时，目标语料文本例如可以是故事内容的语料文本。示例性地，目标场景可以是对话场景、新闻场景、财经场景、直播场景、故事场景、教育场景、或演讲场景中任意一种，或者，目标对象为根据情绪类型进行划分所得到的场景，如悲伤场景、高兴场景等。实际应用时，目标场景也可以是其它可适用的场景。

17、在一种可能的实施方式中，语音克隆装置在接收用户输入的目标场景以及目标文本时，可以生成语音合成界面，该语音合成界面用于将多个候选场景呈现给用户，从而语音克隆装置可以从多个候选场景中确定用户选择的目标场景，并接收该用户在语音合成界面上输入的目标文本。如此，语音克隆装置可以支持用户对场景以及文本的自定义，从而场景和文本的可选性。

18、在一种可能的实施方式中，语音克隆装置所呈现的语音合成界面，还可以用于将多个候选对象呈现给用户，从而用户可以从多个对象中选择其中一个对象作为目标对象。如此，语音克隆装置可以根据用户所选择的对象，对该对象进行语音克隆，以此可以提高语音克隆的灵活性和可选性，提高用户体验。

19、第三方面，本技术实施例还提供了一种语音克隆装置，包括：数据获取模块，用于确定目标场景，并根据所述目标场景，确定属于所述目标场景的目标语料文本，并根据所述目标语料文本，确定目标对象的音频，所述音频的语音内容与所述目标语料文本的内容相匹配；模型训练模块，用于利用所述目标语料文本以及所述音频，训练所述目标场景对应的语音克隆模型，所述语音克隆模型用于输出模拟所述目标对象在所述目标场景下发音的音频。

20、在一种可能的实施方式中，所述目标语料文本的语境与所述目标场景所指示的语境相匹配；所述目标场景包括以下中任意一种：对话场景、新闻场景、财经场景、直播场景、故事场景、教育场景、演讲场景；或者，所述目标场景为根据情绪类型进行划分所得到的场景。

21、在一种可能的实施方式中，所述数据获取模块，用于：获取属于所述目标场景的多个语料文本的拼音分布；根据所述多个语料文本的拼音分布，从所述多个语料文本中选取所述目标语料文本，所述目标语料文本的数量少于所述多个语料文本的数量，所述目标语料文本的拼音分布与所述多个语料文本的拼音分布满足预设条件。

22、在一种可能的实施方式中，所述数据获取模块，用于：从多个语料文本中选取所述目标语料文本，所述目标语料文本中专业术语的占比大于比例阈值，所述多个语料文本属于所述目标场景。

23、在一种可能的实施方式中，所述数据获取模块，用于：生成录音界面，所述录音界面用于将所述目标语料文本呈现给所述目标对象；对所述目标对象根据所述目标语料文本的发音进行录音，得到所述目标对象的音频。

24、在一种可能的实施方式中，所述数据获取模块，用于：获取所述目标对象在所述目标场景下发音的多个音频；从所述多个音频中确定语音内容与所述目标语料文本的内容相匹配的音频。

25、在一种可能的实施方式中，所述数据获取模块，用于：生成场景配置界面，所述场景配置界面用于将多个候选场景呈现给用户；从所述多个候选场景中确定所述用户选择的目标场景。

26、在一种可能的实施方式中，所述数据获取模块，用于：生成场景配置界面，所述场景配置界面用于提示输入用户定义的目标场景的标识以及属于所述目标场景的语料文本；响应于所述用户针对所述场景配置界面的操作，获取所述用户定义的目标场景的标识以及属于所述目标场景的语料文本。

27、在一种可能的实施方式中，所述语音克隆装置还包括语音克隆模块，用于：生成测试界面，所述测试界面用于提示用户输入文本；响应于所述用户针对所述测试界面的操作，获取所述用户输入的目标文本；将所述目标文本输入至所述语音克隆模型，得到所述语音克隆模型输出的音频。

28、值得注意的是，第三方面提供的语音克隆装置，对应于第一方面提供的语音克隆方法，故第三方面以及第三方面中任一实施方式所具有的技术效果，可参见第一方面或者第一方面的相应实施方式所具有的技术效果。

29、第四方面，本技术实施例还提供了一种语音克隆装置，所述语音克隆装置包括：数据获取模块，用于接收用户输入的目标场景和目标文本；语音克隆模块，用于根据所述目标场景，确定所述目标场景对应的语音克隆模型，并基于所述语音克隆模型，输出和所述目标文本对应的目标音频，所述语音克隆模型用于输出模拟目标对象在所述目标场景下发音的音频。

30、在一种可能的实施方式中，所述目标语料文本的语境与所述目标场景所指示的语境相匹配；所述目标场景包括以下中任意一种：对话场景、新闻场景、财经场景、直播场景、故事场景、教育场景、演讲场景；或者，所述目标场景为根据情绪类型进行划分所得到的场景。

31、在一种可能的实施方式中，所述数据获取模块，用于：生成语音合成界面，所述语音合成界面用于将多个候选场景呈现给用户；从所述多个候选场景中确定所述用户选择的所述目标场景；接收所述用户在所述语音合成界面上输入的所述目标文本。

32、在一种可能的实施方式中，所述语音合成界面，还用于将多个候选对象呈现给所述用户；所述数据获取模块，还用于：从所述多个候选对象中，确定所述用户选择的所述目标对象。

33、值得注意的是，第四方面提供的语音克隆装置，对应于第二方面提供的语音克隆方法，故第四方面以及第四方面中任一实施方式所具有的技术效果，可参见第二方面或者第二方面的相应实施方式所具有的技术效果。

34、第五方面，本技术提供一种计算设备，所述计算设备包括处理器和存储器；所述存储器用于存储指令，所述处理器执行所述存储器存储的该指令，以使所述计算设备执行上述第一方面或第一方面任一种可能实现方式中的语音克隆方法，或者执行上述第二方面或第二方面任一种可能实现方式中的语音克隆方法。需要说明的是，该存储器可以集成于处理器中，也可以是独立于处理器之外。所述计算设备还可以包括总线。其中，处理器通过总线连接存储器。其中，存储器可以包括可读存储器以及随机存取存储器。

35、第六方面，本技术提供一种计算设备集群，所述计算设备包括至少一个计算设备，所述至少一个计算设备包括至少一个处理器和至少一个存储器；所述至少一个存储器用于存储指令，所述至少一个处理器执行所述至少一个存储器存储的该指令，以使所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中的语音克隆方法，或者执行上述第二方面或第二方面任一种可能实现方式中的语音克隆方法。需要说明的是，该存储器可以集成于处理器中，也可以是独立于处理器之外。所述至少一个计算设备还可以包括总线。其中，处理器通过总线连接存储器。其中，存储器可以包括可读存储器以及随机存取存储器。

36、第七方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在至少一个计算设备上运行时，使得所述至少一个计算设备执行上述第一方面或第一方面的任一种实现方式所述的方法，或者执行上述第二方面或第二方面任一种可能实现方式中的语音克隆方法。

37、第八方面，本技术提供了一种包含指令的计算机程序产品，当其在至少一个计算设备上运行时，使得所述至少一个计算设备执行上述第一方面或第一方面的任一种实现方式所述的方法，或者执行上述第二方面或第二方面任一种可能实现方式中的语音克隆方法。

38、本技术在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。