一种数字人全息互动方法及系统与流程
- 国知局
- 2024-08-05 12:13:26
本发明涉及虚拟人,特别涉及一种数字人全息互动方法及系统。
背景技术:
1、随着人工智能和计算机图形学的快速发展,全息数字人作为一种具有逼真外貌和互动能力的虚拟人物形象,已经成为多领域应用的关键技术。全息数字人是一个虚拟的人物形象,能够通过人工智能技术实现语音对话、自然语言理解、情感分析等能力,使得人机互动更加自然和智能化。虚拟数字人一直是三维视觉和计算机图形学的研究热点,相关技术更是广泛应用于ar/vr全息通信、影视、游戏制作等多个领域。
2、数字人的基本研究可描述为将人以及与之相关的人体、人脸以及服装等对象进行数字化表示,表示内容则往往涉及数字人的几何外观和语义信息。前者旨在对数字人的三维几何和材质外观进行高保真的描述刻画,后者则致力于对数字人的语义信息进行有效表示,它们分别对应数字人的外在呈现和语义概括,并可通过数字人的语义参数化模型进行关联。
3、现有技术当中,随着虚拟数字人的发展,人们不再简单的满足于人脸的简单建模,通过简单建立人脸以及身体以此作为虚拟数字人,但是虚拟数字人的颜色质量以及渲染效果较差,使得虚拟数字人的真实性降低保证度较低,且无法做出较为真实的面部表情,并且虚拟数字人无法进行更高维度的语义理解,从而无法实现虚拟数字人进行语义级别的高效表达。
技术实现思路
1、基于此,本发明的目的是提供一种数字人全息互动方法及系统,以至少解决上述现有技术当中的不足。
2、第一方面,本发明提供一种数字人全息互动方法,所述方法包括:
3、离散化目标三维对象所在的三维包围盒,记录离散化后所述三维包围盒中的各个体素,基于各个所述体素建立目标生成网格场景,并建立用于颜色渲染的神经辐射场;
4、收集带纹理颜色的三维人体网格数据,并获取所述三维人体网格数据的多视角相机参数,基于所述多视角相机参数对所述三维人体网格数据进行渲染,以得到若干多视角rgb彩色图片;
5、转换若干所述多视角rgb彩色图片以得到基准模型,提取所述基准模型中对应的基准网格,并基于所述基准网格构建非刚性变形表示,将所述非刚性变形表示应用在所述目标生成网格场景上,以得到人体模型;
6、收集若干人脸表情模型,并设计模板人脸网格,将所述模板人脸网格非刚性注册到所述人脸表情模型,以获得三维人脸数据,将所述三维人脸数据进行矫正,以得到人脸矫正数据,基于所述人脸矫正数据构建人脸模型,并通过所述神经辐射场渲染所述人体模型以及所述人脸模型;
7、基于所述人体模型生成人体骨骼模型,并遍历所述骨骼模型中的骨骼链,以得到所述骨骼模型中的骨骼的运动位置,根据所述运动位置以及运动链模型刻画所述人体模型的人体运动方式;
8、基于长短期记忆神经网络建立情感对话回复模型,并结合所述情感对话回复模型以及所述人体模型。
9、与现有技术相比,本发明的有益效果是:通过基准网格构建非刚性变形表示,将非刚性变形表示应用在所述目标生成网格场景上,可以得到人体模型,并且通过神经辐射场渲染人体模型以及人脸模型,使得在目标生成网格场景中的数字人更加的真实,而通过刻画人体模型的运动方式以及通过建立情感对话回复模型,不仅使得数字人能够做出肢体动作还能够提升其语义理解能力,使得数字人能够较为真实的与人进行互动。
10、进一步的,所述并建立用于颜色渲染的神经辐射场的步骤包括:
11、收集所述目标生成网格场景的多个视角的图像信息,随机遍历所述图像信息中的随机像素,基于所述随机像素的位置信息生成对应的成像射线;
12、在所述成像射线上采样三维点,并预测所述三维点的颜色以及密度信息,基于所述三维点的颜色以及所述三维点的密度信息预测所述随机像素的颜色;
13、基于神经辐射场预测所述成像射线上的点的颜色,以得到训练后的神经辐射场,所述神经辐射场采用基于辐射率的光照渲染模型,所述神经辐射场的训练过程表达式为:
14、;
15、式中,f表示隐式函数,表示待训练的网络参数,表示三维点,为所述成像射线的方向,为预测处的颜色,为处的衰减系数;
16、所述隐式函数的表达式为:
17、;
18、式中,表示隐式函数模型,表示待优化的网络参数,表示任意一个三维点,表示预测的占有场的取值。
19、进一步的,所述以得到若干多视角rgb彩色图片的步骤之后,所述方法包括:
20、提取若干所述多视角rgb彩色图片中的特征图序列;
21、将三维点向个各所述多视角rgb彩色图片中的特征图序列进行投影,以得到所述三维点的投影位置;
22、将所述三维点的投影位置进行双线性插值以生成与随机像素对齐的特征向量。
23、进一步的,所述转换若干所述多视角rgb彩色图片以得到基准模型,提取所述基准模型中对应的基准网格,并基于所述基准网格构建非刚性变形表示的步骤包括:
24、处理所述多视角rgb彩色图片的深度图并将其转换得到基准模型;
25、从基准模型中提取出对应的基准网格,并基于所述基准网格构建基于节点图的非刚性变形表示,其中,所述节点图为人体轮廓图;
26、将所述节点图中的每个节点进行刚性变化,以得到待优化变量。
27、进一步的,每个所述节点的刚性变化表达式为:
28、
29、式中,表示刚性变化结果,表示控制节点,表示影响的控制节点集合,表示为控制节点对的影响权重,表示其中一个待优化变量,表示另一个待优化变量,表示节点,表示所述节点图的中心节点。
30、进一步的,所述将所述模板人脸网格非刚性注册到所述人脸表情模型,以获得三维人脸数据,将所述三维人脸数据进行矫正,以得到人脸矫正数据的步骤包括:
31、将所述模板人脸网格以非刚性注册到所述人脸表情模型,以获得具有一致拓扑连接关系的三维人脸数据;
32、对所述三维人脸数据进行光照矫正处理,以修正所述三维人脸数据的纹理信息。
33、进一步的,所述以获得三维人脸数据的表达式为:
34、;
35、;
36、式中,表示三维人脸,表示三维人脸的表面纹理,表示三维人脸几何信息,表示三维人脸上的颜色信息,表示几何相关的维数主成分,表示反照率相关的维数主成分,表示控制几何的权重系数,表示顶点反照率的权重系数。
37、进一步的,所述并通过所述神经辐射场渲染所述人体模型以及所述人脸模型的步骤之后,所述方法包括:
38、基于所述目标生成网格场景的几何相似特性生成相邻帧的三角面对应关系;
39、根据所述三角面对应关系描述所述目标生成网格场景中的网格序列,并对所述网格序列进行一致性分割,以生成具有时空一致性的纹理图序列;
40、将所述纹理图序列映射在所述人体模型以及所述人脸模型上,以生成具有纹理信息的人体模型以及具有纹理信息的人脸模型。
41、进一步的,所述基于长短期记忆神经网络建立情感对话回复模型的步骤包括:
42、采用双向长短期记忆网络编码拼接词向量,并结合注意力机制输出综合向量;
43、对所述综合向量进行归一化处理,以预测输入句子的回复情感倾向;
44、采用双向长短期记忆网络编码并结合注意力机制计算输出输入句子的综合表示,并将所述回复情感倾向加入至解码器以输出具有情感的回复序列。
45、第二方面,本发明还提供一种数字人全息互动系统,所述系统包括:
46、离散化模块,用于离散化目标三维对象所在的三维包围盒,记录离散化后所述三维包围盒中的各个体素,基于各个所述体素建立目标生成网格场景,并建立用于颜色渲染的神经辐射场;
47、第一收集模块,用于收集带纹理颜色的三维人体网格数据,并获取所述三维人体网格数据的多视角相机参数,基于所述多视角相机参数对所述三维人体网格数据进行渲染,以得到若干多视角rgb彩色图片;
48、转换模块,用于转换若干所述多视角rgb彩色图片以得到基准模型,提取所述基准模型中对应的基准网格,并基于所述基准网格构建非刚性变形表示,将所述非刚性变形表示应用在所述目标生成网格场景上,以得到人体模型;
49、第二收集模块,用于收集若干人脸表情模型,并设计模板人脸网格,将所述模板人脸网格非刚性注册到所述人脸表情模型,以获得三维人脸数据,将所述三维人脸数据进行矫正,以得到人脸矫正数据,基于所述人脸矫正数据构建人脸模型,并通过所述神经辐射场渲染所述人体模型以及所述人脸模型;
50、生成模块,基于所述人体模型生成人体骨骼模型,并遍历所述骨骼模型中的骨骼链,以得到所述骨骼模型中的骨骼的运动位置,根据所述运动位置以及运动链模型刻画所述人体模型的人体运动方式;
51、建立模块,用于基于长短期记忆神经网络建立情感对话回复模型,并结合所述情感对话回复模型以及所述人体模型。
本文地址:https://www.jishuxx.com/zhuanli/20240802/261639.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。