技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数字人脸合成方法、装置、计算机设备及存储介质与流程  >  正文

数字人脸合成方法、装置、计算机设备及存储介质与流程

  • 国知局
  • 2024-07-31 22:48:27

本发明涉及神经网络,尤其涉及一种数字人脸合成方法、装置、计算机设备及存储介质。

背景技术:

1、对于金融系统而言,用户在了解相同产品的过程中需要咨询较多重复的问题,若采用人工客服在线一一回答的方式将使得人力成本大幅上涨,而采用离线客服自动回答用户的问题,又会导致用户在咨询的过程中的交互体验大幅下降,当前有学者提出基于语音驱动数字人脸生成对应的视频,在简化原始数据的过程也能提升用户在智能客服场景中有更好的交互体验。但现有的基于语音驱动数字人脸生成对应的视频,相较于销售人员在说同样内容时,在感染力上仍有较大的差距,导致潜在的优质用户流失。

技术实现思路

1、本申请的实施例供了一种数字人脸合成方法、装置、计算机设备及存储介质,旨在解决现有的语音驱动数字人脸的方法在感染力上与真实的客服人员的感染力仍有较大的差距的问题。

2、第一方面,本申请提供了一种数字人脸合成方法,方法包括:

3、获取样本视频,提取出样本视频的语音信息与人脸图像;

4、将语音信息输入语音特征提取器,获取第一特征信息和第二特征信息,其中,第一特征信息与人脸的相关度高于第二特征信息与人脸的相关度;

5、将第一特征信息输入至预设多层神经网络,获取人脸分布信息和人脸表情信息;将第二特征信息输入至预设多层神经网络,获取躯干信息;预设多层神经网络根据人脸分布信息、人脸表情信息以及躯干信息生成数字人脸图像;

6、计算人脸图像与数字人脸图像的损失函数,若损失函数符合预设收敛条件,停止训练,得到数字人脸合成模型,数字人脸合成模型用于合成数字人脸。

7、第二方面,本申请提供了一种数字人脸合成装置,模型训练装置包括:

8、视频提取模块,用于获取样本视频,提取出样本视频的语音信息与人脸图像;

9、特征提取模块,用于将语音信息输入语音特征提取器,获取第一特征信息和第二特征信息,其中,第一特征信息与人脸的相关度高于第二特征信息与人脸的相关度;

10、人脸生成模块,用于将第一特征信息输入至预设多层神经网络,获取人脸分布信息和人脸表情信息;将第二特征信息输入至预设多层神经网络,获取躯干信息;预设多层神经网络根据人脸分布信息、人脸表情信息以及躯干信息生成数字人脸图像;

11、模型获取模块,用于计算人脸图像与数字人脸图像的损失函数,若损失函数符合预设收敛条件,停止训练,得到数字人脸合成模型,数字人脸合成模型用于合成数字人脸。

12、第三方面,本申请提供了一种计算机设备,计算机设备包括:

13、存储器和处理器;

14、其中,存储器与处理器连接,用于存储程序;

15、处理器用于通过运行存储器中存储的程序,实现本申请任一项实施例提供的数字人脸合成方法的步骤。

16、第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现本申请任一项实施例提供的数字人脸合成方法的步骤。

17、本申请涉及一种数字人脸合成方法、装置、计算机设备及存储介质,通过在样本视频中提取出语音信息与人脸图像,将语音信息输入语音特征提取器,获取第一特征信息以及第二特征信息,将第一特征信息以及第二特征信息分别输入至预设多层神经网络,获取人脸分布信息、人脸表情信息以及躯干信息,以生成数字人脸图像,计算人脸图像与数字人脸图像的损失函数直至符合预设收敛条件,停止训练,获取数字人脸合成模型用于合成数字人脸。采用本申请所提供的数字人脸合成方法能够通过将与人脸的相关度较高的第一特征信息生成人脸表情信息,使得最终生成的视频在表情和口型上能更大程度的还原样本视频,提升最终所生成的数字人脸的感染力,使得用户在咨询过程中与数字人脸的交互体验得到提升。

技术特征:

1.一种数字人脸合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数字人脸合成方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的数字人脸合成方法,其特征在于,在所述将所述语音信息输入语音特征提取器之前,所述方法还包括:

4.根据权利要求1所述的数字人脸合成方法,其特征在于,所述预设多层神经网络包括神经辐射场;所述预设多层神经网络根据所述人脸分布信息、人脸表情信息以及躯干信息生成数字人脸图像,包括:

5.根据权利要求4所述的数字人脸合成方法,其特征在于,从所述样本视频中提取出多张连续帧的所述人脸图像;所述计算所述第一人脸信息与所述第二人脸信息的损失函数,若所述损失函数符合预设收敛条件,停止训练,得到数字人脸合成模型,包括:

6.根据权利要求1-5任一项所述的数字人脸合成方法,其特征在于,所述数字人脸合成模型包括语音特征提取器;所述方法包括:

7.根据权利要求6所述的数字人脸合成方法,其特征在于,在所述预设多层神经网络根据所述人脸分布信息、人脸表情信息以及躯干信息生成所述数字人脸图像之后,所述方法还包括:

8.一种数字人脸合成装置,其特征在于,所述模型训练装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的数字人脸合成方法的步骤。

技术总结本申请公开一种数字人脸合成方法、装置、计算机设备及存储介质,解决现有的语音驱动数字人脸的方法在感染力上与真实的客服人员的感染力有较大的差距的问题。方法包括:提取出样本视频的语音信息与人脸图像,将语音信息输入语音特征提取器,获取与人脸的相关度较高的第一特征信息和第二特征信息,将第一特征信息输入预设多层神经网络,获取人脸分布信息和人脸表情信息,将第二特征信息输入至预设多层神经网络,获取躯干信息,根据人脸分布信息、人脸表情信息以及躯干信息生成数字人脸图像,计算人脸图像与数字人脸图像的损失函数直至符合预设收敛条件,停止训练,得到数字人脸合成模型。如此,所生成的数字人脸高度逼近于样本视频中的人脸。技术研发人员:张旭龙,王健宗,程宁,史屹琛受保护的技术使用者:平安科技(深圳)有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194722.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。