技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种服务器、显示设备及数字人交互方法与流程 > 正文

一种服务器、显示设备及数字人交互方法与流程

国知局
2024-06-21 11:41:41

本技术涉及数字人交互，尤其涉及一种服务器、显示设备及数字人交互方法。

背景技术：

1、数字人是指由计算机程序和算法生成的虚拟人物，可以模拟人类的语言、行为、情感等特征，具有高度的智能化和交互性。行业推出的数字人已经应用到文旅、金融、主播、游戏、影视娱乐等多个行业。不同的企业针对业务落地需求都有自己的一套虚拟数字人流程技术，但企业均因资源、效果等问题只针对面向企业的客户推出深度定制化方案，对于消费级面向个人客户未有成熟可靠的定制化方案。

2、在面向个人客户的数字人定制场景下，同一台服务器需要支撑成千上万不同用户，形象每时每刻都在切换。采用早期预制视频帧并将视频帧保存至内存中，以便用户加载播放，但是个人客户数量极为庞大，内存无法支撑成千上万用户视频帧数据同时加载。采用临时读磁盘方式，耗时问题严重影响用户交互体验。采用基于关键点控制单帧图像的驱动可以有助于实现面向个人客户的数字人定制。

3、人脸关键点作为人脸表情动作等信息的“信息压缩态”，常被用作二阶段说话数字人生成算法的中间态。历史算法通过从语音到关键点再到图像映射，实现通过关键点串联语音/文本等模态信号和图像模态信号，这种方案可实现驱动数字人获得与语音/文本内容对应的唇形状态。但是基于关键点驱动的数字人表情单一，受限于关键点表达能力，通过关键点映射获得的数字人表情常以中性为主，缺乏情感状态表达。

技术实现思路

1、本技术一些实施例提供了一种服务器、显示设备及数字人交互方法，通过情感映射语音驱动模型实现关键点数据从中性到其他情感的映射，使得生成的数字人在具备与语音内容对应的口型的同时，表情更为丰富和自然。

2、第一方面，本技术一些实施例中提供一种服务器，被配置为：

3、在接收到显示设备发送用户输入的语音数据后，获取用户图像数据及与所述用户图像数据对应的原始关键点数据，以及根据所述语音数据确定播报文本；

4、基于所述语音数据确定回复情感；

5、将所述播报文本及所述回复情感输入情感映射语音驱动模型，得到情感语音关键点序列，所述情感语音关键点序列为与表情及发音相关关键点的序列；

6、将所述情感语音关键点序列对应替换到原始关键点序列中，生成人脸关键点序列，原始关键点序列包括多个原始关键点数据；

7、基于所述用户图像数据和所述人脸关键点序列生成数字人图像数据；

8、基于所述播报文本生成播报语音；

9、将所述播报语音和所述数字人图像数据发送至所述显示设备，以使所述显示设备播放所述播报语音并基于所述数字人图像数据显示数字人图像。

10、在一些实施例中，所述服务器，被配置为：

11、确定眨眼关键点序列，所述眨眼关键点序列为与眨眼相关关键点的序列；

12、获取预设眨眼位置；

13、基于所述预设眨眼位置在原始关键点序列中确定至少一个目标区域，所述目标区域用于替换眨眼关键点序列；

14、将所述眨眼关键点序列对应替换到原始关键点序列的目标区域中，得到眨眼后关键点序列。

15、在一些实施例中，所述服务器执行将所述情感语音关键点序列对应替换到原始关键点序列中，生成人脸关键点序列，被进一步配置为：

16、将所述情感语音关键点序列对应替换到所述眨眼后关键点序列中，生成人脸关键点序列。

17、在一些实施例中，所述服务器执行将所述情感语音关键点序列对应替换到所述眨眼后关键点序列中，生成人脸关键点序列，被进一步配置为：

18、将所述情感语音关键点序列对应替换到所述眨眼后关键点序列中，生成情感处理后关键点序列；

19、获取头动仿射矩阵拟合序列；

20、基于所述头动仿射矩阵拟合序列和所述情感处理后关键点序列生成人脸关键点序列。

21、在一些实施例中，所述服务器执行确定眨眼关键点序列，被进一步配置为：

22、将原始关键点数据复制为多个；

23、将多个原始关键点数据输入关键点眨眼模型中，得到眨眼关键点序列，所述关键点眨眼模型是以语音合成模型为基础，以上下眼皮高度为条件训练得到的。

24、在一些实施例中，所述服务器执行获取头动仿射矩阵拟合序列，被进一步配置为：

25、提取预设视频中关键点数据并进行归一化后，得到头动参考关键点序列；

26、在所述头动参考关键点序列中选取标准关键点数据，所述标准关键点数据为正脸、无表情及无眨眼的关键点数据；

27、采用数据拟合算法获取所述标准关键点数据到所述头动参考关键点序列的头动仿射矩阵拟合序列；

28、将所述头动仿射矩阵拟合序列存储至预设地址；

29、从所述预设地址获取头动仿射矩阵拟合序列。

30、在一些实施例中，所述服务器执行基于所述语音数据确定回复情感，被进一步配置为：

31、基于所述语音数据确定回复情感及情感强度；

32、所述服务器执行将所述播报文本及所述回复情感输入情感映射语音驱动模型，被进一步配置为：

33、将所述播报文本、所述回复情感及所述情感强度输入情感映射语音驱动模型。

34、在一些实施例中，所述服务器执行基于所述用户图像数据和所述人脸关键点序列生成数字人图像数据，被进一步配置为：

35、将所述用户图像数据和所述人脸关键点序列输入图像生成模型，得到数字人图像数据。

36、第二方面，本技术一些实施例中提供一种显示设备，包括：

37、显示器，被配置为显示用户界面；

38、通信器，被配置为与服务器进行数据通信；

39、控制器，被配置为：

40、在启动数字人交互程序后，接收用户输入的语音数据；

41、将所述语音数据通过所述通信器发送至服务器；

42、接收所述服务器基于所述语音数据下发数字人图像数据及播报语音；

43、播放所述播报语音并基于所述数字人图像数据显示数字人图像。

44、第三方面，本技术一些实施例中提供一种数字人交互方法，包括：

45、在接收到显示设备发送用户输入的语音数据后，获取用户图像数据及与所述用户图像数据对应的原始关键点数据，以及根据所述语音数据确定播报文本；

46、基于所述语音数据确定回复情感；

47、将所述播报文本及所述回复情感输入情感映射语音驱动模型，得到情感语音关键点序列，所述情感语音关键点序列为与表情及发音相关关键点的序列；

48、将所述情感语音关键点序列对应替换到原始关键点序列中，生成人脸关键点序列，原始关键点序列包括多个原始关键点数据；

49、基于所述用户图像数据和所述人脸关键点序列生成数字人图像数据；

50、基于所述播报文本生成播报语音；

51、将所述播报语音和所述数字人图像数据发送至所述显示设备，以使所述显示设备播放所述播报语音并基于所述数字人图像数据显示数字人图像。

52、本技术的一些实施例提供一种服务器、显示设备及数字人交互方法。在接收到显示设备发送用户输入的语音数据后，获取用户图像数据及与所述用户图像数据对应的原始关键点数据，以及根据所述语音数据确定播报文本；基于所述语音数据确定回复情感；将所述播报文本及所述回复情感输入情感映射语音驱动模型，得到情感语音关键点序列，所述情感语音关键点序列为与表情及发音相关关键点的序列；将所述情感语音关键点序列对应替换到原始关键点序列中，生成人脸关键点序列，原始关键点序列包括多个原始关键点数据；基于所述用户图像数据和所述人脸关键点序列生成数字人图像数据；基于所述播报文本生成播报语音；将所述播报语音和所述数字人图像数据发送至所述显示设备，以使所述显示设备播放所述播报语音并基于所述数字人图像数据显示数字人图像。本技术实施例通过情感映射语音驱动模型实现关键点数据从中性到其他情感的映射，使得生成的数字人在具备与语音内容对应的口型的同时，表情更为丰富和自然。