技术新讯 > 乐器声学设备的制造及制作,分析技术 > 数字人的交互方法、装置、终端设备、服务器及系统与流程 > 正文

数字人的交互方法、装置、终端设备、服务器及系统与流程

国知局
2024-06-21 10:38:34

本技术实施例涉及通信，尤其涉及一种数字人的交互方法、装置、终端设备、服务器及系统。

背景技术：

1、终端设备可以通过数字人技术，将终端设备中的文本信息转化虚拟人物的动作、表情或者语音等，以提高用户在通过终端设备获取文本信息时的体验。

2、在相关技术中，可以通过如下方式与数字人进行交互：用户通过终端设备输入文本，终端设备根据输入文本生成实时传输协议(real-time transport protocol，rtp)包，并将rtp包发送至服务器。服务器对rtp包进行解析，并对解析后得到的数据进行渲染处理，得到多媒体数据。多媒体数据为数字人按照解析后得到的数据播放至少一个音频数据或者视频数据。服务器向终端设备发送多媒体数据，以使终端设备通过数字人播放至少一个音频数据或者视频数据。

3、在上述过程中，由于根据rtp包得到多媒体数据只能按照输入文本的内容进行播放。不能根据输入文本，进行对应的反应动作或者执行预设功能，导致用户与数字人交互的灵活性较低。

技术实现思路

1、本技术实施例提供一种数字人的交互方法、装置、终端设备、服务器及系统，用以解决用户与数字人交互的灵活性较低的问题。

2、第一方面，本技术实施例提供一种数字人的交互方法，包括：

3、获取目标文本，并对所述目标文本进行分句处理，得到至少一个文本语句；

4、确定每个文本语句对应的扩展信息；

5、针对任意一个文本语句，根据所述文本语句和所述文本语句对应的扩展信息，生成所述文本语句对应的目标实时传输协议rtp包；

6、根据每个文本语句对应的目标rtp包，获取所述目标文本对应的多媒体数据，并播放所述多媒体数据，所述多媒体数据为所述数字人按照所述扩展信息播放所述目标文本的音频数据或者视频数据。

7、在一种可能的实施方式中，根据所述文本语句和所述文本语句对应的扩展信息，生成所述文本语句对应的目标rtp包，包括：

8、根据所述文本语句，生成rtp报文体；

9、根据所述扩展信息，生成rtp头；

10、对所述rtp头和所述rtp报文体进行拼接处理，得到所述目标rtp包。

11、在一种可能的实施方式中，根据所述扩展信息，生成rtp头，包括：

12、确定预设的rtp头格式，所述rtp头格式中包括多个字段、所述多个字段的排列顺序、以及每个字段的字段长度；

13、根据所述扩展信息，生成每个字段对应的字段值，所述字段值的长度等于所述字段的字段长度；

14、按照所述排列顺序，对所述多个字段对应的字段值进行组合处理，得到所述rtp头。

15、在一种可能的实施方式中，根据所述文本语句，生成rtp报文体，包括：

16、生成所述文本语句对应的脉冲编码调制pcm音频流；

17、按照rtp包格式，对所述pcm音频流进行封装处理，得到所述rtp报文体。

18、在一种可能的实施方式中，所述方法应用于终端设备；根据每个文本语句对应的目标rtp包，获取所述目标文本对应的多媒体数据，包括：

19、向服务器发送每个文本语句对应的目标rtp包，所述终端设备和所述服务器之间为实时数据传输；

20、接收所述服务器发送的所述多媒体数据，所述多媒体数据为所述服务器根据每个文本语句对应的目标rtp包进行渲染得到的。

21、在一种可能的实施方式中，所述扩展信息中包括停顿时长信息和操作信息，所述操作信息包括如下至少一种：执行动作、动作执行次数、表情或待触发的业务功能；

22、针对任意一个文本语句；确定所述文本语句对应的扩展信息，包括：

23、确定所述文本语句末尾处的标点符号，并根据所述标点符号确定停顿时长信息；

24、确定所述文本语句对应的语义信息，并根据所述语义信息确定所述执行动作和所述动作执行次数。

25、第二方面，本技术实施例提供一种数字人的交互方法，包括：

26、接收终端设备发送的至少一个目标rtp包；

27、对所述至少一个目标rtp包进行解析处理，得到至少一个脉冲编码调制pcm音频流、以及每个pcm音频流对应的扩展信息；

28、根据所述至少一个pcm音频流、以及每个pcm音频流对应的扩展信息进行渲染处理，得到多媒体数据，所述多媒体数据为数字人按照所述扩展信息播放所述至少一个pcm音频流的音频数据或者视频数据；

29、向所述终端设备发送所述多媒体数据。

30、在一种可能的实施方式中，针对任意一个目标rtp包；对所述目标rtp包进行解析处理，得到所述目标rtp包对应的pcm音频流、以及所述pcm音频流对应的扩展信息，包括：

31、对所述目标rtp包进行解析处理，得到rtp报文体和rtp头；

32、对所述rtp报文体进行解析处理，得到所述目标rtp包对应的pcm音频流；

33、对所述rtp头进行解析处理，得到所述扩展信息。

34、在一种可能的实施方式中，所述扩展信息中包括停顿时长信息和操作信息，所述操作信息包括如下至少一种：执行动作、动作执行次数、表情或待触发的业务功能；

35、对所述rtp头进行解析处理，得到所述扩展信息，包括：

36、对所述rtp头进行解析处理，得到多个字段值；

37、按照预设的rtp头格式，在所述多个字段值中确定所述停顿时长信息对应的第一字段值、所述执行动作对应的第二字段值、以及所述动作执行次数对应的第三字段值；

38、根据所述第一字段值确定所述停顿时长信息，根据所述第二字段值确定所述执行动作，以及根据所述第三字段值确定所述动作执行次数。

39、第三方面，本技术实施例提供一种数字人的交互装置，所述装置包括：

40、获取模块，用于获取目标文本，并对所述目标文本进行分句处理，得到至少一个文本语句；

41、确定模块，用于确定每个文本语句对应的扩展信息；

42、生成模块，用于根据所述文本语句和所述文本语句对应的扩展信息，生成所述文本语句对应的目标实时传输协议rtp包；

43、播放模块，用于根据每个文本语句对应的目标rtp包，获取所述目标文本对应的多媒体数据，并播放所述多媒体数据，所述多媒体数据为所述数字人按照所述扩展信息播放所述目标文本的音频数据或者视频数据。

44、在一种可能的实施方式中，所述生成模块具体用于：

45、根据所述文本语句，生成rtp报文体；

46、根据所述扩展信息，生成rtp头；

47、对所述rtp头和所述rtp报文体进行拼接处理，得到所述目标rtp包。

48、在一种可能的实施方式中，所述生成模块具体用于：

49、确定预设的rtp头格式，所述rtp头格式中包括多个字段、所述多个字段的排列顺序、以及每个字段的字段长度；

50、根据所述扩展信息，生成每个字段对应的字段值，所述字段值的长度等于所述字段的字段长度；

51、按照所述排列顺序，对所述多个字段对应的字段值进行组合处理，得到所述rtp头。

52、在一种可能的实施方式中，所述生成模块具体用于：

53、生成所述文本语句对应的脉冲编码调制pcm音频流；

54、按照rtp包格式，对所述pcm音频流进行封装处理，得到所述rtp报文体。

55、在一种可能的实施方式中，所述获取模块具体用于：

56、向服务器发送每个文本语句对应的目标rtp包，所述终端设备和所述服务器之间为实时数据传输；

57、接收所述服务器发送的所述多媒体数据，所述多媒体数据为所述服务器根据每个文本语句对应的目标rtp包进行渲染得到的。

58、在一种可能的实施方式中，所述确定模块具体用于：

59、确定所述文本语句末尾处的标点符号，并根据所述标点符号确定停顿时长信息；

60、确定所述文本语句对应的语义信息，并根据所述语义信息确定所述执行动作和所述动作执行次数。

61、第四方面，本技术实施例提供一种数字人的交互装置，所述装置包括：

62、接收模块，用于接收终端设备发送的至少一个目标rtp包；

63、第一处理模块，用于对所述至少一个目标rtp包进行解析处理，得到至少一个脉冲编码调制pcm音频流、以及每个pcm音频流对应的扩展信息，所述扩展信息中包括如下至少一种：停顿时长信息、执行动作、以及动作执行次数；

64、第二处理模块，用于根据所述至少一个pcm音频流、以及每个pcm音频流对应的扩展信息进行渲染处理，得到多媒体数据，所述多媒体数据为数字人按照所述扩展信息播放所述至少一个pcm音频流的音频数据或者视频数据；

65、发送模块，用于向所述终端设备发送所述多媒体数据。

66、在一种可能的实施方式中，所述第一处理模块具体用于：

67、对所述目标rtp包进行解析处理，得到rtp报文体和rtp头；

68、对所述rtp报文体进行解析处理，得到所述目标rtp包对应的pcm音频流；

69、对所述rtp头进行解析处理，得到所述扩展信息。

70、在一种可能的实施方式中，所述第一处理模块具体用于：

71、对所述rtp头进行解析处理，得到多个字段值；

72、按照预设的rtp头格式，在所述多个字段值中确定所述停顿时长信息对应的第一字段值、所述执行动作对应的第二字段值、以及所述动作执行次数对应的第三字段值；

73、根据所述第一字段值确定所述停顿时长信息，根据所述第二字段值确定所述执行动作，以及根据所述第三字段值确定所述动作执行次数。

74、第五方面，本技术实施例提供一种终端设备，包括：

75、至少一个处理器；以及

76、与所述至少一个处理器通信连接的存储器；其中，

77、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中任一项所述的方法。

78、第六方面，本技术实施例提供一种服务器，包括：

79、至少一个处理器；以及

80、与所述至少一个处理器通信连接的存储器；其中，

81、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第二方面中任一项所述的方法。

82、第七方面，本技术实施例提供一种数字人的交互系统，包括至少一个终端设备和服务器，其中，

83、所述终端设备用于执行第一方面任一项所述的方法；

84、所述服务器用于执行第二方面中任一项所述的方法。

85、第八方面，本技术实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面中任一项，或者第二方面中任一项所述的方法。

86、第九方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项所述的方法。

87、本技术实施例提供的数字人的交互方法、装置、终端设备、服务器及系统，获取目标文本，并对目标文本进行分句处理，得到至少一个文本语句。确定每个文本语句对应的扩展信息。根据文本语句和文本语句对应的扩展信息，生成每个文本语句对应的目标实时传输协议rtp包。终端设备向服务器发送目标rtp包。服务器接收到终端设备发送的至少一个目标rtp包之后，对至少一个目标rtp包进行解析处理，得到至少一个脉冲编码调制(pulsecode modulation，pcm)音频流、以及每个pcm音频流对应的扩展信息。根据至少一个pcm音频流、以及每个pcm音频流对应的扩展信息进行渲染处理，得到多媒体数据。并向终端设备发送多媒体数据，以使终端设备通过数字人按照扩展信息播放至少一个pcm音频流的音频数据或者视频数据。在上述过程中，由于终端设备在生成rtp包之前，对目标文本进行分句处理，得到至少一个文本语句。并确定每个文本语句对应的扩展信息，数字人可以根据扩展信息实现对应的反应动作或者执行预设功能，而不是播放目标文本的内容，提高了用户与数字人交互的灵活性。