技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于文本的数字人生成方法及装置与流程  >  正文

基于文本的数字人生成方法及装置与流程

  • 国知局
  • 2024-06-21 11:39:46

本申请涉及数字人驱动,具体而言,涉及一种基于文本的数字人生成方法及装置。

背景技术:

1、在当前的数字人方法中,当生成说话数字人的唇形相关视频时,通常需要经过tts(文本转语音)进行音频合成。这一过程存在一些局限性,其中速度慢且精准度有所损失是主要问题之一。

2、首先,通过tts合成音频的过程通常需要耗费相当的时间,这对于实时或大规模应用而言是一个挑战。用户可能需要等待较长时间才能获得最终的数字人说话视频。其次,精准度方面存在一些问题,因为tts系统在将文本转换为语音时可能会导致一些发音或语调的不准确性。这可能影响最终生成的数字人说话视频的真实感和质量。

3、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种基于文本的数字人生成方法及装置,以至少解决现有技术中通过tts进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。

2、根据本发明实施例的一个方面,提供了一种基于文本的数字人生成方法,包括:构建嵌入层;利用所述嵌入层对说话文本进行文本到语音的编码,得到训练好的语音模型;将所述训练好的语音模型嵌入到视频的训练结果中,以生成数字人。

3、根据本发明实施例的另一方面,还提供了一种基于文本的数字人生成装置,包括:构建模块,被配置为构建嵌入层;训练模块,被配置为利用所述嵌入层对说话文本进行文本到语音的编码,得到训练好的语音模型;生成模块,被配置为将所述训练好的语音模型嵌入到视频的训练结果中,以生成数字人。

4、在本发明实施例中,构建嵌入层;利用所述嵌入层对说话文本进行文本到语音的编码,得到训练好的语音模型;将所述训练好的语音模型嵌入到视频的训练结果中,以生成数字人。通过上述步骤,解决了现有技术中通过tts进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。

技术特征:

1.一种基于文本的数字人生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,利用所述嵌入层对说话文本进行文本到语音的编码,得到训练好的语音模型,包括:

3.根据权利要求2所述的方法,其特征在于,将所述训练好的语音模型嵌入到视频的训练结果中,包括:

4.根据权利要求2所述的方法,其特征在于,利用所述嵌入层将所述说话文本编码为所述音频特征,以学习将所述文本嵌入到所述音频特征的隐式空间,包括:

5.一种基于文本的数字人生成装置,其特征在于,包括:

6.根据权利要求5所述的装置,其特征在于,所述训练模块还被配置为:

7.根据权利要求6所述的装置,其特征在于,所述生成模块还被配置为:

8.根据权利要求6所述的装置,其特征在于,所述训练模块还被配置为:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至4中任一项所述的方法。

技术总结本申请提供了一种基于文本的数字人生成方法及装置,其中,该方法包括:构建嵌入层;利用所述嵌入层对说话文本进行文本到语音的编码,得到训练好的语音模型;将所述训练好的语音模型嵌入到视频的训练结果中,以生成数字人。本申请解决了现有技术中通过TTS进行音频合成导致生成能说话的数字人速度慢、精准度有损失的技术问题。技术研发人员:蒋正浩,张鹏起,吴建伟受保护的技术使用者:世优(北京)科技有限公司技术研发日:技术公布日:2024/3/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/22750.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。