技术新讯 > 乐器声学设备的制造及制作,分析技术 > 数字人的口型驱动方法、装置、设备及存储介质与流程 > 正文

数字人的口型驱动方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:46:50

本发明涉及虚拟动画，尤其涉及一种数字人的口型驱动方法、装置、设备及存储介质。

背景技术：

1、虚拟数字人是指具有数字化外形的虚拟人物，不同于具备实体的机器人，虚拟数字人依赖显示设备而存在。虚拟数字人具有人的外观形态，通常还具备语言、面部表情和肢体动作表达的能力，可以通过输入输出设备(如鼠标、键盘等)与人类进行交互。在深度学习和神经网络高速发展的当下，虚拟数字人还可以通过人工智能技术得到交互能力，广泛应用于虚拟主播、服务助手、媒体演艺等领域。

2、在办公系统中加入虚拟数字人作为问答助手可以在高效快捷地完成自助问答服务的同时优化用户体验。根据用户输入的文字问题，虚拟数字人可以采用不同的肢体动作和表情口型来实时播报对问题的回答。在虚拟数字人进行实时播报的过程中，口型和发音同步是最关键的问题之一，不同于虚拟直播，虚拟数字人在特定办公系统的问答交互中进行实时播报时并没有摄像头面部捕捉技术的输入作为辅助，所有的口型和动作都需要根据输入的文本或语音来进行匹配控制。

3、现存方法对虚拟数字人口型的处理主要有以下解决方案：

4、1.对于真人型虚拟数字人，要求形象非常接近真人，通常采用真人进行表演录制大量视频帧素材，然后将素材制作成数据集用以训练模型，从而合成语音口型同步的视频帧动画。该方法需要耗费大量的时间和财力采集真人的表演素材，并且为了使数字人形象更逼真，对设备性能要求也较高。

5、2.对于卡通型虚拟数字人，由于外观更加抽象卡通，通常对口型的要求更低，主要有两种方案：其一，口型固定，与发音无关，并不会根据语音变化口型，使数字人形象十分机械；其二，采用提前进行人工标注的方式为语音添加对应的口型标签以实现口型切换，该方法需要提前对固定的模板语音进行人力标注，不适用于灵活场景，不能用于实时播报。

技术实现思路

1、本发明提供了一种数字人的口型驱动方法、装置、设备及存储介质，以解决现有虚拟数字人口型数据采集费时费力且无法在实时播报语音时流畅地做出正确的口型的问题。

2、根据本发明的一方面，提供了一种数字人的口型驱动方法，该方法包括：

3、获取目标文本数据，确定与所述目标文本数据对应的情感特征向量；

4、确定与所述目标文本数据对应的目标语音数据，确定与所述目标语音数据对应的语音特征向量；

5、基于所述情感特征向量和所述语音特征向量确定数字人的口型驱动参数，基于所述口型驱动参数驱动数字人口型进行变化，其中，所述口型驱动参数包括至少一种口型驱动动作参数和与至少一种所述口型驱动动作参数对应权重的乘积的组合。

6、根据本发明的另一方面，提供了一种数字人的口型驱动装置，该装置包括：

7、第一特征向量确定模块，用于获取目标文本数据，确定与所述目标文本数据对应的情感特征向量；

8、第二特征向量确定模块，用于确定与所述目标文本数据对应的目标语音数据，确定与所述目标语音数据对应的语音特征向量；

9、口型驱动模块，用于基于所述情感特征向量和所述语音特征向量确定数字人的口型驱动参数，基于所述口型驱动参数驱动数字人口型进行变化，其中，所述口型驱动参数包括至少一种口型驱动动作参数和与至少一种所述口型驱动动作参数对应权重的乘积的组合。

10、根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

11、至少一个处理器；以及

12、与所述至少一个处理器通信连接的存储器；其中，

13、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的数字人的口型驱动方法。

14、根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数字人的口型驱动方法。

15、本发明实施例的技术方案，通过获取目标文本数据，确定与所述目标文本数据对应的情感特征向量；可确定数字人在实时播报目标文本数据时的情感；然后，确定与所述目标文本数据对应的目标语音数据，确定与所述目标语音数据对应的语音特征向量；可准建立目标语音数据对和语音特征向量之间的对应关系；最后，基于所述情感特征向量和所述语音特征向量确定数字人的口型驱动参数，基于所述口型驱动参数驱动数字人口型进行变化，其中，所述口型驱动参数包括至少一种口型驱动动作参数和与至少一种所述口型驱动动作参数对应权重的乘积的组合，解决了虚拟数字人口型数据采集费时费力且无法在实时播报语音时流畅地做出正确的口型的问题，取到了实时得到与语音同步的口型驱动参数驱动数字人的口型进行变化，使数字人能够在实时播报语音时流畅地做出正确的口型，提高用户使用体验有益效果。

16、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种数字人的口型驱动方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本数据确定与所述目标文本数据对应的情感特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于与多个所述文本分词对应的情感匹配概率确定与所述目标文本数据对应的目标情感标签，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定与所述目标语音数据对应的语音特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述情感特征向量和所述语音特征向量确定数字人的口型驱动参数，包括：

6.根据权利要求5所述的方法，其特征在于，在所述基于所述音频特征向量和口型标签确定模型确定所述口型标签结果之前，还包括：

7.根据权利要求1所述的方法，其特征在于，所述确定与所述目标文本数据对应的目标语音数据，包括：

8.一种数字人的口型驱动装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数字人的口型驱动方法。

技术总结本发明公开了一种数字人的口型驱动方法、装置、设备及存储介质。该方法包括：获取目标文本数据，确定与所述目标文本数据对应的情感特征向量；确定与所述目标文本数据对应的目标语音数据，确定与所述目标语音数据对应的语音特征向量；基于所述情感特征向量和所述语音特征向量确定数字人的口型驱动参数，基于所述口型驱动参数驱动数字人口型进行变化，其中，所述口型驱动参数包括至少一种口型驱动动作参数和与至少一种所述口型驱动动作参数对应权重的乘积的组合。实时得到与语音同步的口型驱动参数驱动数字人的口型进行变化，使数字人能够在实时播报语音时流畅地做出正确的口型，提高用户使用体验。技术研发人员：吴俊蓉受保护的技术使用者：中国农业银行股份有限公司技术研发日：技术公布日：2024/4/29