技术新讯 > 乐器声学设备的制造及制作,分析技术 > 个性化语音合成方法、电子设备、服务器和存储介质与流程  >  正文

个性化语音合成方法、电子设备、服务器和存储介质与流程

  • 国知局
  • 2024-06-21 11:54:51

本技术涉及电子,具体涉及一种个性化语音合成方法、电子设备、服务器和存储介质。

背景技术:

1、随着电子设备的不断发展,电子设备丰富的功能为用户生活提供了极大的便利。例如,在电子设备开启语音助手功能的情况下,用户可以与电子设备进行语音对话,如果用户输入一句语音,则电子设备可以基于该语音进行语音回复。再例如,在电子设备开启人工智能(artificial intelligence,ai)通话功能的情况下,如果电子设备接通了一个来电,则用户可以在通话界面输入文字,使电子设备将文字合成语音发送给对方电子设备。

2、在上述场景下,无论是电子设备进行语音回复还是将文字合成语音,都会涉及语音合成(text to speech,tts)过程。而为了提高用户的使用体验,电子设备还提供有个性化语音合成功能,可以供用户自己录制语音,使得后续电子设备输出的语音为用户自己的音色。对于此功能,如何使所合成的语音更贴近用户实际的韵律等特征是一个需要解决的问题。

技术实现思路

1、本技术提供了一种个性化语音合成方法、电子设备、服务器和存储介质,可以使合成的个性化语音的韵律等特征更贴近用户实际的特征,语音合成效果更佳。

2、第一方面,本技术提供一种个性化语音合成方法,该方法包括:在电子设备开启语音合成功能的情况下,获取电子设备中需要进行语音合成的文字信息,文字信息包括用户输入的文字信息和电子设备生成的文字信息;获取用户对应的音频特征和文本特征,音频特征为根据用户进行语音合成功能注册时所录入的语音信息而生成的特征,文本特征为根据用户进行语音合成功能注册时所朗读的注册文本信息而生成的特征;基于音频特征、文本特征以及文字信息对应的编码结果,确定对文字信息进行语音合成时的拉伸时长;基于拉伸时长,通过音频模型对文字信息和音频特征进行语音合成,输出个性化语音,其中,音频模型为根据训练数据中的第一文字信息和第一语音信息进行训练得到的与文本无关的模型。

3、其中,用户在使用电子设备的语音合成功能时,可以使电子设备输出用户想要使用的音色语音(即个性化语音),例如在语音助手功能的场景中,用户语音输入一段语句后,电子设备可以使用个性化语音进行回复,再例如在ai通话功能的场景中,用户输入文字信息,电子设备可以将文字信息转换为个性化语音(如用户自己的声音)回复给对方用户。

4、需要说明的是,本技术中的个性化语音合成方法可以由电子设备执行,也可以由服务器(如云端服务器)执行,在第一方面中以电子设备执行为例进行说明。

5、在本技术中,用户在进行语音合成功能注册(即自定义语音注册)时,用户可以朗读提示短语或语句(即注册文本),电子设备可以根据用户录入的语音信息来提取用户对应的音频特征,那么后续电子设备接收到文字信息后,便可以基于训练完成的音频模型对文字信息和用户对应的音频特征进行处理,得到带有用户音色的个性化语音。这里的音频模型为根据训练数据中的第一文字信息和第一语音信息进行训练得到的与文本无关的模型,那么,在对文字信息和用户对应的音频特征进行处理时,音频模型可以以用户对应的音频特征为提示,合成带有用户音色的语音来输出。而为了使所输出的语音信息的韵律等特征与用户实际的特征更加贴近,则需要对语音信息对应的时长进行有效预测,因此,本技术中基于用户进行语音合成功能注册时的音频特征、文本特征对当前的文字信息进行拉伸时长的预测,并基于该拉伸时长对文字信息和音频特征进行语音合成,以提高语音合成的效果。

6、对于上述电子设备中需要进行语音合成的文字信息,在语音助手功能的场景中,该文字信息可以为电子设备针对用户输入的语音进行查询并回复的信息,在ai通话功能的场景中,该文字信息可以为用户所输入的要回复对方用户的信息。

7、结合第一方面,在第一方面的有些实现方式中,上述基于音频特征、文本特征以及文字信息对应的编码结果,确定对文字信息进行语音合成时的拉伸时长,包括:将音频特征和文本特征输入第一时长预测模型,输出第一预测时长;将第一预测时长和文字信息对应的编码结果输入第二时长预测模型,输出拉伸时长。

8、其中,为提高拉伸时长的预测精度以提高语音合成的效果,本技术采用两级时长预测模型,第一时长预测模型基于用户对应的音频特征和文本特征,输出第一预测时长,再将第一预测时长和要语音合成的文字信息对应的编码结果输入第二时长预测模型,由第一预测时长作为提示信息,输出第二预测时长,也即上述的拉伸时长。

9、结合第一方面,在第一方面的有些实现方式中,上述第一时长预测模型和第二时长预测模型的训练方式包括:

10、获取第一文字信息对应的第一语义特征和第一语音信息对应的第一声学特征;

11、将第一语义特征与第一声学特征进行对齐处理,确定第一语义特征对应的第一拉伸时长特征;

12、生成随机数k,根据随机数k将第一语义特征划分为第一子特征和第二子特征,将第一拉伸时长特征划分为第三子特征和第四子特征,以及将第一声学特征划分为第五子特征和第六子特征;

13、将第一子特征和第五子特征输入第一时长预测模型,根据输出结果与第三子特征之间的损失,调整第一时长预测模型的参数值,以至第一时长预测模型收敛;

14、将第二子特征和第三子特征输入第二时长预测模型,根据输出结果与第四子特征之间的损失,调整第二时长预测模型的参数值,以至第二时长预测模型收敛。

15、可以理解,如果要使用上述两级时长预测模型,则需要对第一时长预测模型和第二时长预测模型进行训练,训练过程所使用的训练数据可以与上述音频模型所使用的训练数据一致。首先,电子设备可以对训练数据中的第一文字信息进行前端处理、维度映射处理(embedding)、编码处理(encoder)和时长拉伸处理(lr),得到第一语义特征(semantic),再对训练数据中的第一语音信息进行音频编码处理、多通道映射处理(embedding)和多通道累加处理,得到第一声学特征(acoustic)。同时,第一语义特征与第一声学特征对齐时,可以得到第一语义特征对应的第一拉伸时长特征(duration)。然后,电子设备可以生成一个随机数k,将第一语义特征划分为第一子特征prompt_se和第二子特征target_se,将第一拉伸时长特征划分为第三子特征prompt_dur和第四子特征target_dur,以及将第一声学特征划分为第五子特征prompt_ac和第六子特征target_ac。接下来,可以将prompt_se和prompt_ac输入第一时长预测模型,预测用户语音输出prompt_se对应的音素时的第一时长pmt_dur_predict,并计算pmt_dur_predict和prompt_dur之间的第一损失,基于该第一损失调整第一时长预测模型的模型参数,直至训练收敛;再将prompt_dur和target_se输入第二时长预测模型,以prompt_dur作为提示信息,预测用户语音输出target_se对应的音素时的第二时长tg_dur_predict,计算tg_dur_predict和target_dur之间的第二损失,并基于该第二损失调整第二时长预测模型的模型参数,直至训练收敛。

16、由于在第二时长预测模型训练的过程中,输入的是prompt_dur和target_se,相较于prompt_ac来说信息量大幅减少,因此,可以减少无关信息的干扰,提高时长预测模型的收敛效果,进而提高所预测的语音时长的准确性,提高语音合成的效果。

17、结合第一方面,在第一方面的有些实现方式中,随机数k的取值范围为[,],l为第一语义特征的数据长度。

18、结合第一方面,在第一方面的有些实现方式中,上述根据随机数k将第一语义特征划分为第一子特征和第二子特征,包括:从第一语义特征的第一位置开始取k长度的特征作为第一子特征,剩余部分的特征组合作为第二子特征;

19、将第一拉伸时长特征划分为第三子特征和第四子特征,包括:从第一拉伸时长特征的第一位置开始取k长度的特征作为第三子特征,剩余部分的特征组合作为第四子特征;

20、将第一声学特征划分为第五子特征和第六子特征,包括:从第一声学特征的第一位置开始取k长度的特征作为第五子特征,剩余部分的特征组合作为第六子特征。

21、在上述使用随机数k对各个特征进行划分时,考虑到用户说话时刚开始可能会有一段时间的空白语音,如果将语义特征和声学特征划分为前后两部分,则前部分的特征中可能会有一些空值,那么在将前部分的特征记为prompt供后续作为提示信息的话,空值就会影响预测精度。因此,本技术中电子设备可以根据随机数k从语义特征、拉伸时长和声学特征的中间部分进行截取,再将剩余部分进行组合,以得到各个特征的prompt和target。

22、结合第一方面,在第一方面的有些实现方式中,上述基于拉伸时长,通过音频模型对文字信息和音频特征进行语音合成,输出个性化语音,包括:通过音频模型对文字信息进行特征提取,得到文字信息对应的具有拉伸时长的长度的语义特征;通过音频模型对语义特征和音频特征进行语音合成,输出个性化语音。

23、其中,在电子设备采用音频模型对文字信息和用户对应的音频特征进行语音合成时,可以基于拉伸时长先对文字信息进行特征提取,得到具有拉伸时长的长度的语义特征,进而再基于语义特征和用户对应的音频特征进行语音合成。

24、在一些实现方式中,电子设备可以先对文字信息进行文本正则处理、韵律预测处理、注音处理等前端处理,得到文字信息所对应的音素信息,再通过音频模型对音素信息进行维度映射处理、编码处理以及时长拉伸处理,得到具有拉伸时长的长度的语义特征。

25、其中,维度映射处理是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程;编码处理是指对输入的文本信息进行特征整合,转化维高位抽象的特征块的过程;时长拉伸处理是指对文字信息进行朗读时长的拉伸,即预测朗读每个文字(或音素)时的时长,并将时长信息加入文字信息中。

26、在通过音频模型对语义特征和用户对应的音频特征进行语音合成时,可以将用户对应的音频特征作为音色提示,对语义特征和音频特征进行融合以及解码,以将文字信息转换为与用户音色相同的个性化语音。因此,无论对于什么样的文字信息,只要提取到用户注册时的音频特征,都可以将文字信息转换为个性化语音,提高了语音合成的处理效率。

27、结合第一方面,在第一方面的有些实现方式中,上述获取用户对应的音频特征和文本特征,包括:获取用户进行语音合成功能注册时所录入的语音信息,以及用户进行语音合成功能注册时所朗读的注册文本信息;对录入的语音信息进行音频编码处理、多通道映射处理以及多通道累加处理,得到用户对应的音频特征;对注册文本信息进行前端处理,得到文本特征。

28、其中,用户在进行语音合成功能注册时,电子设备提供有相应的注册界面。例如在语音助手功能的场景中,在智慧语音设置界面,用户可以对播报音色进行设置,例如进行自定义音色设置。在自定义音色设置界面,显示有朗读短语的提示,用户可以朗读对应的短语(即注册文本),以使电子设备对用户的声音进行录制。可选地,如果用户没有录制成功,则可以重新进行录制。可选地,在本技术中,用户在录入语音信息时,对应朗读的短语句数n≤2。

29、在录制完成之后,电子设备便可以对用户录制的语音信息进行音频编码处理、多通道映射处理以及多通道累加处理,以得到用户对应的音频特征,以及对注册文本信息进行前端处理,得到文本特征。可选地,电子设备还可以将用户对应的音频特征与用户的标识关联存储在特征库中,那么后续电子设备在进行语音合成时,可以直接从特征库中查找该用户对应的音频特征。

30、上述实现方式中,用户在自定义音色注册时,只需要朗读少句短语即可完成,无需再朗读多句,操作起来比较简易,提高了用户体验。

31、第二方面,本技术提供一种时长预测模型的训练方法,该方法包括:

32、获取训练数据中的第一文字信息和第一语音信息;

33、提取第一文字信息对应的第一语义特征和第一语音信息对应的第一声学特征;

34、将第一语义特征与第一声学特征进行对齐处理,确定第一语义特征对应的第一拉伸时长特征;

35、生成随机数k,根据随机数k将第一语义特征划分为第一子特征和第二子特征,将第一拉伸时长特征划分为第三子特征和第四子特征,以及将第一声学特征划分为第五子特征和第六子特征;

36、将第一子特征和第五子特征输入第一时长预测模型,根据输出结果与第三子特征之间的损失,调整第一时长预测模型的参数值,以至第一时长预测模型收敛;

37、将第二子特征和第三子特征输入第二时长预测模型,根据输出结果与第四子特征之间的损失,调整第二时长预测模型的参数值,以至第二时长预测模型收敛。

38、其中,该时长预测模型的训练过程可以参见上述第一方面的描述,由于在第二时长预测模型训练的过程中,输入的是第三子特征prompt_dur和第二子特征target_se,相较于prompt_ac来说信息量大幅减少,因此,可以减少无关信息的干扰,提高时长预测模型的收敛效果,进而提高所预测的语音时长的准确性,提高语音合成的效果。

39、第三方面,本技术提供一种装置,该装置包含在电子设备中,该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能,或者具有实现第二方面中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,接收模块或单元、处理模块或单元等。

40、第四方面,本技术提供一种电子设备,电子设备包括:处理器、存储器和接口;处理器、存储器和接口相互配合,使得电子设备执行第一方面的技术方案中任意一种方法,或者执行第二方面的技术方案中的方法。

41、第五方面,本技术提供一种服务器,服务器包括一个或多个处理器;一个或多个存储器;所述存储器存储有一个或多个程序,当所述一个或多个程序被所述处理器执行时,使得所述服务器执行如第一方面的技术方案中任意一种方法,或者执行第二方面的技术方案中的方法。

42、在一个实现方式中,服务器可以为云端服务器,云端服务器在得到个性化语音之后,还可以将个性化语音返回给电子设备,由电子设备将个性化语音进行输出或者发送给其他电子设备。

43、第六方面,本技术提供一种芯片,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面及其任意可能的实现方式中的方法,或者执行第二方面的技术方案中的方法。

44、可选地,芯片还包括存储器,存储器与处理器通过电路或电线连接。

45、进一步可选地,芯片还包括通信接口。

46、第七方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储了计算机程序,当计算机程序被处理器执行时,使得该处理器执行第一方面的技术方案中任意一种方法,或者执行第二方面的技术方案中的方法。

47、第八方面,本技术提供一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码在电子设备上运行时,使得该电子设备执行第一方面的技术方案中任意一种方法,或者执行第二方面的技术方案中的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24436.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。