技术新讯 > 乐器声学设备的制造及制作,分析技术 > 实时语音转多说话人语音的变声方法、装置及相关组件与流程 > 正文

实时语音转多说话人语音的变声方法、装置及相关组件与流程

国知局
2024-06-21 11:53:08

本发明涉及音频处理，尤其涉及实时语音转多说话人语音的变声方法、装置及相关组件。

背景技术：

1、实时变声技术是一种将用户音频进行实时处理，使其听起来像是来自不同声音特征的技术，实时变声需要在短时间内完成复杂的处理和转换操作，而且声音具有复杂的时域和频域特征，在处理过程中，需要准确地捕捉和模仿这些特征，并且还需要对目标人物的独特语音特征进行建模和学习，以保持模仿结果的准确性和一致性。

2、现有的实时变声技术通常是利用深度学习和神经网络等技术，然后通过训练模型来实现高质量的声音模仿，这种方法通过输入目标人物的语音样本和文本，生成与目标人物相似的语音，但是这种方法大多存在以下问题：1、训练模型太大，无法在低端显卡上做到实时变声；2、通过ppg模型或wav2vec2模型提取相关特征，然而这种模型提取的特征要么没有去除音色特征，要么只保留文本特征而没有韵律信息，从而导致最终生成的音色转换失败或带有明显机械声，缺乏情感。

技术实现思路

1、本发明实施例提供了实时语音转多说话人语音的变声方法、装置及相关组件，旨在解决现有实时变声技术存在的训练模型大、音色转换后带有机械声的问题。

2、第一方面，本发明实施例提供了一种实时语音转多说话人语音的变声方法，包括：

3、提取用户音频的第一内容特征和音高特征；

4、获取特征索引程度参数，并使用top1检索按照所述特征索引程度参数对所述第一内容特征进行替换，得到训练集特征；

5、使用faiss库对所述训练集特征进行搜索和组合，得到第二内容特征；

6、将所述第二内容特征和音高特征输入至文本编码器进行编码，得到语义表示向量；

7、获取多个模板人物编号，将多个所述模板人物编号输入嵌入层，得到多个说话人嵌入向量；

8、将所述语义表示向量和各说话人嵌入向量输入至流模型，得到隐变量；

9、利用声码器将所述隐变量和各说话人嵌入向量进行解码，生成多个音频波形数据。

10、第二方面，本发明实施例提供了实时语音转多说话人语音的变声装置，包括：

11、提取单元，用于提取用户音频的第一内容特征和音高特征；

12、替换单元，用于获取特征索引程度参数，并使用top1检索按照特征索引程度参数对所述第一内容特征进行替换，得到训练集特征；

13、搜索组合单元，用于使用faiss库对所述训练集特征进行搜索和组合，得到第二内容特征；

14、编码单元，用于将所述第二内容特征和音高特征输入至文本编码器进行编码，得到语义表示向量；

15、第一输入单元，用于获取多个模板人物编号，将多个所述模板人物编号输入嵌入层，得到多个说话人嵌入向量；

16、第二输入单元，用于将所述语义表示向量和各说话人嵌入向量输入至流模型，得到隐变量；

17、解码单元，用于利用声码器将所述隐变量和各说话人嵌入向量进行解码，生成多个音频波形数据。

18、第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的实时语音转多说话人语音的变声方法。

19、第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如第一方面所述的实时语音转多说话人语音的变声方法。

20、本发明实施例提供了实时语音转多说话人语音的变声方法、装置及相关组件。该变声方法包括：提取用户音频的第一内容特征和音高特征；获取特征索引程度参数，并使用top1检索按照所述特征索引程度参数对所述第一内容特征进行替换，得到训练集特征；使用faiss库对所述训练集特征进行搜索和组合，得到第二内容特征；将所述第二内容特征和音高特征输入至文本编码器进行编码，得到语义表示向量；获取多个模板人物编号，将多个所述模板人物编号输入嵌入层，得到多个说话人嵌入向量；将所述语义表示向量和各说话人嵌入向量输入至流模型，得到隐变量；利用声码器将所述隐变量和各说话人嵌入向量进行解码，生成多个音频波形数据。本发明实施例通过对用户音频进行特征提取、特征替换、搜索组合、编码、嵌入操作以及解码处理得到音频波形数据，使用户实现实时语音转多说话人语音的变声功能。此外，用户还可以根据音频波形数据的变声结果调节特征索引程度参数，使变声结果与模板人物更相似，而且通过声码器生成音频波形数据，无机械声和噪声。

技术特征：

1.一种实时语音转多说话人语音的变声方法，其特征在于，包括：

2.根据权利要求1所述的变声方法，其特征在于，所述提取用户音频的第一内容特征和音高特征，包括：

3.根据权利要求2所述的变声方法，其特征在于，所述内容编码器为hubert预训练模型，其中，所述hubert预训练模型按如下方式得到：去掉原始预训练模型的最后一层的全连接层。

4.根据权利要求1所述的变声方法，其特征在于，所述使用faiss库对所述训练集特征进行搜索和组合，得到第二内容特征，包括：

5.根据权利要求4所述的变声方法，其特征在于，所述利用faiss库的搜索函数对所述第一内容特征进行近邻搜索，得到相似度得分数组和索引数组的步骤之后，还包括：

6.根据权利要求1所述的变声方法，其特征在于，所述获取多个模板人物编号，根据多个所述模板人物编号输入嵌入层，得到多个说话人嵌入向量，包括：

7.根据权利要求1所述的变声方法，其特征在于，所述将所述语义表示向量和各说话人嵌入向量输入至流模型，得到隐变量，包括：

8.一种实时语音转多说话人语音的变声装置，用于实现如权利要求1-7任一项所述的变声方法，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的变声方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的变声方法。

技术总结本发明实施例提供了一种实时语音转多说话人语音的变声方法、装置及相关组件。该变声方法通过对用户音频进行特征提取、特征替换、搜索组合、编码、嵌入操作以及解码处理得到音频波形数据，使用户实现实时语音转多说话人语音的变声功能。此外，用户还可以根据音频波形数据的变声结果调节特征索引程度参数，使变声结果与模板人物更相似，而且通过声码器生成音频波形数据，无机械声和噪声。技术研发人员：姚振财受保护的技术使用者：深圳牛学长科技有限公司技术研发日：技术公布日：2024/5/27