技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种服务器、显示设备及数字人交互方法与流程 > 正文

一种服务器、显示设备及数字人交互方法与流程

国知局
2024-06-21 11:41:49

本申请涉及数字人交互，尤其涉及一种服务器、显示设备及数字人交互方法。

背景技术：

1、随着人工智能技术的不断发展，数字人已经成为了一种备受关注的技术。数字人是指由计算机程序和算法生成的虚拟人物，可以模拟人类的语言、行为、情感等特征，具有高度的智能化和交互性。目前，数字人技术主要应用于游戏、教育、医疗、金融等领域。

2、数字人应用场景较为单一，主要局限于单一场景，如虚拟主播新闻播报、教育视频讲师等。数字人形象展示也较为单一，仅替换传统意义的语音助手形象，由用户选用可供选择的数字人形象。

技术实现思路

1、本申请一些实施例提供了一种服务器、显示设备及数字人交互方法，通过识别出显示设备上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。

2、第一方面，本申请一些实施例中提供一种服务器，被配置为：

3、接收显示设备发送用户输入的语音数据；

4、识别所述语音数据，得到识别结果；

5、如果所述识别结果中包括实体数据，获取所述识别结果对应的媒资数据，以及所述实体数据对应的数字人数据，所述实体数据包括人物名称和/或媒资名称，所述数字人数据包括数字人的图像数据和播报语音，所述媒资数据包括音视频数据或界面数据；

6、将所述数字人数据及所述媒资数据发送至所述显示设备，以使所述显示设备播放所述音视频数据或显示所述界面数据，以及根据所述数字人数据播放数字人的图像及语音。

7、在一些实施例中，在接收显示设备发送用户输入的语音数据之前，所述服务器，被配置为：

8、生成至少一个人物名称对应的绘画模型；

9、生成至少一个媒资名称对应的动作模型；

10、生成至少一个人物名称对应的基于音调和韵律的语音合成模型；

11、构建和训练条件对抗网络；

12、将所述绘画模型、所述动作模型和所述语音合成模型输入至训练好的所述条件对抗网络中，得到待存储数字人数据；

13、对所述待存储数字人数据进行特征标注并存储至服务器。

14、在一些实施例中，所述服务器执行生成至少一个人物名称对应的绘画模型，被进一步配置为：

15、获取预设数量所述人物名称对应的图片；

16、将所述图片输入文生图模型，得到所述人物名称对应绘画模型。

17、在一些实施例中，所述服务器执行生成至少一个媒资名称对应的动作模型，被进一步配置为：

18、获取预设数量的样本视频数据，并对所述样本视频数据进行预处理和标注；

19、利用标注后的样本视频数据对所述动作生成模型进行训练；

20、将媒资名称对应的视频数据输入训练好的动作生成模型，生成所述媒资名称对应的动作模型。

21、在一些实施例中，所述服务器执行生成至少一个人物名称对应的基于音调和韵律的语音合成模型，被进一步配置为：

22、获取预设数量的样本音频数据，并对所述样本音频数据进行预处理和标注，样本音频数据包括人物名称对应的音频数据及媒资名称对应的音频数据；

23、利用标注后的样本音频数据对所述语音合成模型进行训练，得到人物名称对应的基于音调和韵律的语音合成模型。

24、在一些实施例中，所述服务器执行对所述待存储数字人数据进行特征标注并存储至服务器，被进一步配置为：

25、对待存储数字人数据的人物信息、媒资名称和热度进行标注，所述人物信息包括人物名称，所述热度为训练数据的数量；

26、获取第一热度和第二热度，所述第一热度为已存储的数字人数据中所述人物名称对应的最高热度，所述第二热度为已存储的数字人数据中所述媒资名称对应的最高热度；

27、如果待存储数字人数据的热度不小于第一热度或第二热度，将标注后的待存储数字人数据存储至服务器。

28、在一些实施例中，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

29、如果所述识别结果中包括人物名称或者媒资名称，则获取已存储数字人数据中特征标注为所述人物名称或者所述媒资名称对应的数字人数据。

30、在一些实施例中，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

31、如果所述识别结果中包括人物名称和媒资名称，且所述人物名称和所述媒资名称在已存储数字人数据特征标注不匹配，将所述媒资名称对应的绘画模型替换为所述人物名称对应的绘画模型，以及将所述媒资名称对应的语音数据替换为所述人物名称对应的语音数据，生成替换数字人数据；

32、确定所述替换数字人数据为所述人物名称和所述媒资名称对应的数字人数据。

33、第二方面，本申请一些实施例中提供一种显示设备，包括：

34、显示器，被配置为显示用户界面；

35、通信器，被配置为与服务器进行数据通信；

36、控制器，被配置为：

37、接收用户输入的语音数据；

38、将所述语音数据通过所述通信器发送至服务器；

39、接收所述服务器基于所述语音数据下发的数字人数据；

40、根据所述数字人数据播放所述数字人的图像及语音。

41、第三方面，本申请一些实施例中提供一种数字人交互方法，包括：

42、接收显示设备发送用户输入的语音数据；

43、识别所述语音数据，得到识别结果；

44、如果所述识别结果中包括实体数据，获取所述识别结果对应的媒资数据，以及所述实体数据对应的数字人数据，所述实体数据包括人物名称和/或媒资名称，所述数字人数据包括数字人的图像数据和播报语音，所述媒资数据包括音视频数据或界面数据；

45、将所述数字人数据及所述媒资数据发送至所述显示设备，以使所述显示设备播放所述音视频数据或显示所述界面数据，以及根据所述数字人数据播放数字人的图像及语音。

46、本申请的一些实施例提供一种服务器、显示设备及数字人交互方法。接收显示设备发送用户输入的语音数据；识别语音数据，得到识别结果；获取识别结果对应的媒资数据；如果识别结果中包括实体数据，获取实体数据对应的数字人数据，其中，实体数据包括人物名称和/或媒资名称，数字人数据包括数字人的图像数据和播报语音，媒资数据包括音视频数据或界面数据；将数字人数据及媒资数据发送至显示设备，以使显示设备播放音视频数据或显示界面数据，以及根据数字人数据播放数字人的图像及语音。本申请实施例通过识别出显示设备上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。

技术特征：

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，在接收显示设备发送用户输入的语音数据之前，所述服务器，被配置为：

3.根据权利要求2所述的服务器，其特征在于，所述服务器执行生成至少一个人物名称对应的绘画模型，被进一步配置为：

4.根据权利要求2所述的服务器，其特征在于，所述服务器执行生成至少一个媒资名称对应的动作模型，被进一步配置为：

5.根据权利要求2所述的服务器，其特征在于，所述服务器执行生成至少一个人物名称对应的基于音调和韵律的语音合成模型，被进一步配置为：

6.根据权利要求2所述的服务器，其特征在于，所述服务器执行对所述待存储数字人数据进行特征标注并存储至服务器，被进一步配置为：

7.根据权利要求1所述的服务器，其特征在于，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

8.根据权利要求1所述的服务器，其特征在于，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

9.一种显示设备，其特征在于，包括：

10.一种数字人交互方法，其特征在于，包括：

技术总结本申请一些实施例示出一种服务器、显示设备及数字人交互方法，所述方法包括：接收显示设备发送用户输入的语音数据；识别所述语音数据，得到识别结果；如果所述识别结果中包括实体数据，获取所述识别结果对应的媒资数据，以及所述实体数据对应的数字人数据，所述实体数据包括人物名称和/或媒资名称；将所述数字人数据及所述媒资数据发送至所述显示设备，播放音视频数据或显示界面数据，以及根据数字人数据播放数字人的图像及语音。本申请实施例通过识别出显示设备上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。技术研发人员：王娜,付爱国,刘蔚受保护的技术使用者：海信视像科技股份有限公司技术研发日：技术公布日：2024/4/7