一种显示设备及虚拟数字人生成方法与流程
- 国知局
- 2024-06-21 11:41:19
本技术涉及显示设备,尤其涉及一种显示设备及虚拟数字人生成方法。
背景技术:
1、ai(artificial intelligence,人工智能)生成虚拟数字人视频是人工智能技术应用的一个新领域,该领域包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项技术。通过ai生成的虚拟人物可用于许多人机交互的场景,如新闻播报、课堂教育、养老陪护等。ai合成虚拟数字人是指通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策虚拟数字人后续的输出文本,然后驱动学习模特说话时的唇动、表情、语音以及姿态和动作等。
2、为了提高虚拟数字人的生成效率,出现基于声音推理生成数字人的方案。其主要是通过声音推理模型,采用声音推理生成人脸关键点,然后将该人脸关键点同通过3d人脸重建模型从真实原始图片中提取出的信息相结合,最终合成虚拟数字人。与上述过程推理生成人脸关键点不同的是,利用语音驱动推理生成人体姿态关键点是一个比较困难的任务。目前在语音驱动数字人的动作姿态生成方面,主要存在两种方法:一、预先设置虚拟人的动作及其对应的语义条件,然后对通过语音识别将识别结果与语义条件进行匹配得到对应的动作及动作执行的时间帧,进而驱动生成虚拟人的动作。这种方式生成的动作数量非常有限,生成的动作也比较呆板僵硬。二、基于模型生成的方法,这种方法将提取的语音特征作为输入,通过自回归模型预测人体的骨骼节点序列,进一步生成人体的动作姿态。与第一种方法相比,通过自回归模型预测的姿态序列更加连续。但模型预测的动作效果容易受提取的语音特征准确性所影响。
技术实现思路
1、本技术一些实施例提供了一种显示设备及虚拟数字人生成方法,结合语音的文本数据与矢量化自动编码器方法学习得到嵌入式的文本动作字典,将经编码后的语音特征数据投影到嵌入式的文本动作字典,使得编码后的语音特征具有更加准确的高层动作语义特征,从而提高解码后动作姿态序列的准确性。
2、第一方面,本技术一些实施例中提供一种显示设备,包括:
3、显示器;
4、控制器,被配置为:
5、接收用户输入的第一语音数据;
6、获取与所述第一语音数据相关联的第二语音数据;
7、将所述第二语音数据切分为多个音频数据;
8、将所述音频数据输入第一矢量化自动编码器,以获取所述音频数据对应的语音特征;
9、将所述语音特征投影到文本动作字典,以获取第一嵌入字典表征,所述文本动作字典是基于文本样本数据对第二矢量化自动编码器预训练得到的;
10、将所述第一嵌入字典表征输入解码器中,以获取预测关节点序列;
11、基于所述预测关节点序列绘制虚拟数字人;
12、在播放所述音频数据时控制显示器显示所述音频数据对应的虚拟数字人。
13、在一些实施例中,所述控制器执行将所述第一嵌入字典表征输入解码器中,以获取预测关节点序列,被进一步配置为:
14、响应于用户输入选择目标人物风格的指令,获取所述目标人物风格对应的第二嵌入字典表征,所述第二嵌入字典表征用于表征动作速率、动作幅度和动作频率;
15、将所述第一嵌入字典表征和所述第二嵌入字典表征输入解码器中,以获取预测关节点序列。
16、在一些实施例中,所述控制器执行获取所述目标人物风格对应的第二嵌入字典表征,被进一步配置为:
17、将目标视频输入第三矢量化自动编码器,以获取风格特征,所述目标视频包括目标人物;
18、将所述风格特征投影到动作风格字典,以获取第二嵌入字典表征,所述动作风格字典是基于视频样本数据对第三矢量化自动编码器预训练得到的,所述样本视频数据为不同人物的视频。
19、在一些实施例中,所述文本动作字典基于文本数据及第二矢量化自动编码器预训练和微调得到,所述微调为通过全连接层和归一化指数函数对所述文本数据进行动作分类。
20、在一些实施例中,所述控制器执行将所述音频数据输入第一矢量化自动编码器,以获取所述音频数据对应的语音特征,被进一步配置为:
21、对所述音频数据进行一次卷积的二次采样,得到采样结果;
22、将所述采样结果进行线性操作和丢弃操作后,输入多个语音识别模块,得到所述音频数据对应的语音特征。
23、在一些实施例中,所述语音特征包括多个第一中间表征,所述控制器执行将所述语音特征投影到文本动作字典,以获取第一嵌入字典表征,被进一步配置为:
24、通过最近邻算法在所述文本动作字典中查询与所述第一中间表征最相似的向量,将所述第一中间表征用所述文本动作字典中查询最相似的向量代替,得到第一嵌入字典表征。
25、在一些实施例中,所述风格特征包括多个第二中间表征,所述控制器执行将所述风格特征投影到动作风格字典,以获取第二嵌入字典表征,被进一步配置为:
26、通过最近邻算法在所述动作风格字典中查询与所述第二中间表征最相似的向量,将所述第二中间表征用所述动作风格字典中查询最相似的向量代替,得到第二嵌入字典表征。
27、在一些实施例中,所述控制器执行将所述第一嵌入字典表征输入解码器中,以获取预测关节点序列,被进一步配置为:
28、基于所述第一嵌入字典表征和前一帧视频数据的预测关节点序列,预测得到当前帧视频数据的预测关节点序列。
29、在一些实施例中,所述控制器执行将所述第一嵌入字典表征和所述第二嵌入字典表征输入解码器中,以获取预测关节点序列,被进一步配置为:
30、根据所述第一嵌入字典表征和所述第二嵌入字典表征计算联合嵌入表征;
31、根据所述联合嵌入表征和前一帧视频数据的预测关节点序列,预测得到当前帧视频数据的预测关节点序列。
32、第二方面,本技术一些实施例中提供一种虚拟数字人生成方法,包括:
33、接收用户输入的第一语音数据;
34、获取与所述第一语音数据相关联的第二语音数据;
35、将所述第二语音数据切分为多个音频数据;
36、将所述音频数据输入第一矢量化自动编码器,以获取所述音频数据对应的语音特征;
37、将所述语音特征投影到文本动作字典,以获取第一嵌入字典表征,所述文本动作字典是基于文本样本数据对第二矢量化自动编码器预训练得到的;
38、将所述第一嵌入字典表征输入解码器中,以获取预测关节点序列;
39、基于所述预测关节点序列绘制虚拟数字人;
40、在播放所述音频数据时控制显示器显示所述音频数据对应的虚拟数字人。
41、本技术的一些实施例提供一种显示设备及虚拟数字人生成方法。在接收用户输入的第一语音数据后,获取与第一语音数据相关联的第二语音数据。将第二语音数据分为多个音频数据,将音频数据依次输入第一矢量化自动编码器,得到音频数据对应的语音特征,将语音特征投影到文本动作字典,得到第一嵌入字典表征。其中,文本动作字典是基于文本样本数据对第二矢量化自动编码器预训练得到的。将第一嵌入字典表征输入解码器中,得到预测关节点序列,基于预测关节点序列生成虚拟数字人。在播放音频数据时控制显示器显示音频数据对应的虚拟数字人。
42、本技术实施例结合语音的文本数据与矢量化自动编码器方法学习得到嵌入式的文本动作字典,将经编码后的语音特征数据投影到嵌入式的文本动作字典,使得编码后的语音特征具有更加准确的高层动作语义特征,从而提高解码后动作姿态序列的准确性。
43、进一步的,本技术实施例基于生成模型矢量化自动编码器生成虚拟数字人,该方法将语音数据投影到离散的向量空间,然后再进行解码和重构生成动作姿态序列。离散向量空间的加入,使得模型在保持高压缩率,同时也具有较好的重构质量,进而在推理使用时展现更加出色的模型效率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22928.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表