三维角色的个性化脸部显示方法、装置、设备及存储介质与流程
- 国知局
- 2024-07-11 16:04:48
本发明涉及虚拟建模,具体涉及一种三维角色的个性化脸部显示方法、装置、设备及存储介质。背景技术:::1、在三维网络游戏中,提供有游戏用户对三维角色的脸部进行个性化定制的功能。三维角色的脸部包括:三维人脸模型以及覆盖在三维人脸模型上的一张纹理图像。该个性化定制允许用户对该纹理图像进行自定义设定。市面上常见的游戏三维角色脸部定制功能大多是基于文本驱动图像生成技术实现的,目前文本驱动图像生成任务所应用的主流模型是生成对抗网络gan(如stackgan,attngan,df-gan等)、扩散模型(如dall-e,dall-e2,stable diffusion等)或借助openai的clip模型做优化(如styleclip,vqgan-clip等)以及t2p模型。2、基于生成对抗网络的方法依赖于文本-图像数据对,而文本图像数据对难以收集,且这种方法是端到端的,输入为文本,输出为对应的图片,无法与游戏中的捏脸参数产生映射,意味着基于这种方法无法得到最终目标捏脸参数。3、基于扩散模型的方法生成的图片质量高且与文本的描述更符合,但是生成速度较慢,对于游戏这种对实时性要求非常高的领域来说不适用,且存在和gan一样的问题,无法与游戏中的捏脸参数形成映射。4、基于openai的clip模型做优化的方法除了依赖于clip外,还需要一个图像生成器,且控制图像生成的潜在空间是难以人为定义的,因此之前的方法潜在空间要么全部是连续参数(如styleclip),要么全部是离散参数(如vqgan-clip),这些方法的侧重点在与对图像的控制而不是潜在空间与现有参数的映射。5、t2p模型中通过预训练模拟器与翻译器,在玩家输入文本时,对模拟器和翻译器的网络参数进行优化并结合进化搜索算法来得到最终的捏脸参。但是基于优化网络参数的方法只能处理连续参数,因为在优化过程中离散参数的处理是不可导的,会导致梯度无法反向传播,因此t2p针对离散参数使用了进化搜索算法,这种方法可以得到较好的结果但是速度较慢,进化搜索算法大量运用判断语句,导致gpu流水线无法预测下一条执行的指令,降低了gpu的并行性。6、为了解决上述问题,本发明提出了一种三维角色的个性化脸部显示方法、装置、设备及存储介质。技术实现思路1、本发明的目的在于提供一种三维角色的个性化脸部显示方法、装置、设备及存储介质以解决背景技术::中所提出的问题。2、为了实现上述目的,本发明采用了如下技术方案:3、一种三维角色的个性化脸部显示方法,所述方法包括:4、s1、玩家输入文本描述,系统初始化捏脸参数;5、s2、将捏脸参数分为连续参数和离散参数,利用特定的softmax函数对所述离散参数进行处理,然后再将连续参数与离散参数拼接;6、s3、对s2中处理后的捏脸参数进行优化,利用模拟器接收捏脸参数为输入并输出游戏人物脸部图像;然后再通过clip模块对人脸图像进行编码得到图像嵌入向量,同时对玩家的文本输入进行编码得到文本嵌入向量;7、s4、计算s3中所得的图像嵌入向量和文本嵌入向量相似度,反向传播损失来更新捏脸参数;8、s5、重复s1-s4,不断更新捏脸参数直至达到最大迭代次数或图像嵌入向量和文本嵌入向量误差小于预设的误差下限。9、优选地,s1中所述捏脸参数初始值的取值为参数的中值,或利用翻译器接收文本嵌入向量作为输入,将输出的推断的捏脸参数作为初始值的取值。10、优选地,s2中所述softmax函数处理指利用一种softmax激活函数对离散函数进行处理,使得每组离散函数中最大的分量趋近于0,其余分量也趋近于0,具体函数表示为:11、12、式中,x为离散捏脸参数,n为离散参数的维度,β为自定义的指数系数,目的在于使得经过处理后的离散参数趋近于one-hot编码。13、优选地,s3中所述模拟器由6个转置卷积块和1个转置卷积层组成,其中,所述中置卷积块由1个转置卷积层transpoed conv、1个批归一化层batch norm和一个relu激活函数组成;14、所述模拟器的损失函数为模拟器输出图片与真实图片素材的l1损失,具体公式表示如下:15、16、式中,x为捏脸参数;u(x)为多维均匀分布;g(x)为模拟器输出的图片;engine(x)为游戏中该捏脸参数对应的图片。17、优选地,s4中图像嵌入向量和文本嵌入向量相似度的损失函数计算公式为:18、19、式中,etext为文本嵌入向量;eimg为图片嵌入向量。20、优选地,进一步引入两个损失函数以优化捏脸参数,具体内容如下:21、a1、使用arcface模型提取人脸图片的特征,并通过arcface模型提取经过损失函数优化产生的图片以及当前迭代轮次产生的图片的特征,计算上述两个特征之间的l2损失,具体函数表示为:22、23、式中,i为当前迭代轮次生成的图片;i’为上一次优化生成的图片;a为arcface模型;24、a2、引入loop back损失以避免优化过程中梯度过大导致参数变化过大或超过参数的取值范围,所述loop back损失为上一次迭代的捏脸参数与本次迭代的捏脸参数之间的l2损失,具体函数表示为:25、26、式中,fi为本次迭代的捏脸参数,fi-1为上一轮迭代的捏脸参数;27、a3、综合应用三种损失函数以完成对捏脸参数的更新优化,总损失函数表示为:28、29、式中,λsim,λidt,λloop分别为三种损失函数对应的系数。30、根据本技术的另一方面,提供了一种三维角色的个性化脸部显示装置,所述装置包括文本编码模块、翻译器推断模块、捏脸参数优化模块、参数存储模块和socket通信模块;31、所述文本编码模块,使用clip的文本编码器对用户输入的文本进行编码,当用户输入文本过长时会进行截断;所述文本编码模块还提供prompt engineering功能,负责将玩家的输入与预设的多个模板拼接得到多个文本描述,计算这些文本描述对应的文本嵌入向量的平均值作为文本编码模块的输出;32、所述翻译器推断模块,用于加载预训练好的翻译器模型,以文本嵌入向量为输入,输出翻译器推断的捏脸参数;33、所述捏脸参数优化模块,输入为文本嵌入向量和翻译器推断模块输出的捏脸参数,通过优化捏脸参数的方法使得捏脸参数对应的人脸图像与文本嵌入向量相趋近,并在用户连续输入文本时确保输出捏脸参数对应人脸图像的身份一致性;34、所述参数储存模块,用于存储玩家的输入文本、捏脸参数、捏脸参数对应的图像、玩家输入文本的次数、玩家使用的优化方法,当用户连续输入文本时,参数存储模块提供捏脸参数优化模块所需的上一次的捏脸参数以及捏脸参数对应的图像;所述参数存储模块还用于处理参数的格式以适应rpg游戏读取的捏脸参数格式;35、所述socket通信模块,用于与rpg游戏开发的端口通信,将参数存储模块中rpg游戏可用的捏脸参数格式发送给游戏,当通信发生错误时进行异常处理。36、根据本技术的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、程序、代码集或指令集由处理器加载并执行以实现上述三维角色的个性化脸部显示方法。37、根据本技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、程序、代码集或指令集由处理器加载并执行以实现上述三维角色的个性化脸部显示方法。38、与现有技术相比,本发明提供了一种三维角色的个性化脸部显示方法、装置、设备及存储介质,具备以下有益效果:39、本发明提供了一套连续与离散参数同步处理的文本生成捏脸参数的优化流程,根据本发明的优化流程,只需要提供文本描述,即可以无限量地生成文本-捏脸参数数据对,从而为翻译器训练提供大量数据,而训练好翻译器又会加快优化的速度,形成一条正反馈链。同时,考虑到玩家多次捏脸的一致性问题,本发明引入了两个新的损失函数,identityloss和loop back loss,上述两个损失函数保证了优化过程中捏脸参数的稳定性以及对应游戏人物的身份一致性。40、综上所述,本发明通过优化与模型推断加优化两种方法,实现了快速的文本生成捏脸参数,使得玩家可以用文本来定制自己的游戏角色,提高玩家的沉浸式游戏体验,并考虑到多次捏脸的身份一致性问题,在基础优化流程上进一步引入新的损失函数保证优化过程的稳定以及人物的身份一致性。当前第1页12当前第1页12
本文地址:https://www.jishuxx.com/zhuanli/20240615/77334.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表