技术新讯 > 五金工具产品及配附件制造技术 > 数字人驱动方法、装置、设备及存储介质与流程 > 正文

数字人驱动方法、装置、设备及存储介质与流程

国知局
2024-08-05 12:12:25

本技术涉及人工智能，尤其涉及数字人驱动方法、装置、设备及存储介质。

背景技术：

1、目前，在虚拟数字人客服场景中，数字人客服的出现为客户服务带来了全新的体验，但也存在一些局限性。其中之一是数字人客服普遍缺少手部动作，或者手部动作类型较少，并且这些动作与话术不够协调。手部动作在人类交流中起着至关重要的作用，能够传达丰富的信息和情感，但在当前的数字人客服中，这一维度往往被忽视或者简化。然而，数字人客服在与客户交流时若缺少手部动作可能使得对话显得单调乏味，缺乏情感表达，甚至可能会影响用户对虚拟数字人的信任感，进而用户体验不佳。

2、上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本技术的主要目的在于提供一种数字人驱动方法、装置、设备及存储介质，旨在解决现有技术中的数字人客服在与用户交流时由于缺少手部动作导致用户体验不佳的技术问题。

2、为实现上述目的，本技术提出一种数字人驱动方法，所述的方法包括：

3、将待播报音频输入至预设数字人手部动作驱动模型，所述预设数字人手部动作驱动模型中设置有编码器和解码器；

4、通过所述编码器对所述待播报音频进行编码，获得所述待播报音频对应的目标音频特征；

5、通过所述解码器基于所述目标音频特征，以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标；

6、基于所述目标手部动作关键点坐标对所述待驱动数字人进行驱动。

7、在一实施例中，所述编码器中设置有卷积层、第一线性映射层和编码模块；所述通过所述编码器对所述待播报音频进行编码，获得所述待播报音频对应的目标音频特征的步骤，包括：

8、通过所述编码器中的卷积层对所述待播报音频进行特征提取，获得所述待播报音频对应的第一音频特征；

9、通过所述第一线性映射层对所述第一音频特征进行处理，获得第二音频特征；

10、通过所述编码模块对所述第二音频特征进行处理，以获得所述待播报音频对应的目标音频特征。

11、在一实施例中，所述解码器中设置有第二线性映射层和解码模块，所述解码模块中设置有多头掩码注意力层；所述通过所述解码器基于所述目标音频特征，以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标的步骤，包括：

12、通过所述解码器中的多头掩码注意力层对所述目标音频特征进行掩码操作，获得有效音频特征；

13、基于待驱动数字人的历史手部动作关键点坐标和手部动作标准状态矩阵确定手部关键点坐标偏移量；

14、将所述手部动作标准状态矩阵和所述手部关键点坐标偏移量输入至所述解码器中的第二线性映射层，获得第三音频特征；

15、基于所述有效音频特征、所述第三音频特征和所述手部动作标准状态矩阵确定目标手部动作关键点坐标。

16、在一实施例中，所述解码器中设置有第三线性映射层；所述基于所述有效音频特征、所述第三音频特征和所述手部动作标准状态矩阵确定目标手部动作关键点坐标的步骤，包括：

17、对所述第三音频特征进行旋转位置编码，获得第四音频特征；

18、通过所述第三线性映射层基于所述有效音频特征和所述第四音频特征确定目标手部关键点坐标偏移量；

19、基于所述目标手部关键点坐标偏移量和所述手部动作标准状态矩阵确定目标手部动作关键点坐标。

20、在一实施例中，所述将待播报音频输入至预设数字人手部动作驱动模型的步骤之前，还包括：

21、构建播报音频和数字人手部动作之间的映射关系表；

22、基于所述映射关系表采集所述数字人手部动作对应的手部动作音视频；

23、通过人体关键点检测模型获取所述手部动作音视频中的手部关键点坐标；

24、基于所述手部关键点坐标和所述手部动作音视频中的手部动作音频对初始数字人手部动作驱动模型进行训练，获得预设数字人手部动作驱动模型。

25、在一实施例中，所述基于所述手部关键点坐标和所述手部动作音视频中的手部动作音频对初始数字人手部动作驱动模型进行训练，获得预设数字人手部动作驱动模型的步骤，包括：

26、对所述手部动作音视频中的手部动作音频进行编码，获得训练音频特征，所述训练音频特征为目标时长的所述手部动作音频对应的特征；

27、以所述训练音频特征和所述手部关键点坐标作为初始数字人手部动作驱动模型中编码器的输入、以数字人在目标时刻的手部关键点坐标作为所述初始数字人手部动作驱动模型中解码器的输出进行模型训练，获得预设数字人手部动作驱动模型。

28、在一实施例中，所述以所述训练音频特征和所述手部关键点坐标作为初始数字人手部动作驱动模型中编码器的输入、以数字人在目标时刻的手部关键点坐标作为所述初始数字人手部动作驱动模型中解码器的输出进行模型训练，获得预设数字人手部动作驱动模型的步骤，包括：

29、将所述训练音频特征和所述手部关键点坐标输入至初始数字人手部动作驱动模型；

30、在所述初始数字人手部动作驱动模型输出第一时刻的手部关键点坐标时，通过所述初始数字人手部动作驱动模型中的解码器对第一音频特征以及目标时刻手部关键点坐标进行掩码操作，以对所述初始数字人手部动作驱动模型进行训练，获得预设数字人手部动作驱动模型；

31、其中，所述第一音频特征为所述训练音频特征中除所述第一时刻对应的音频特征之外的所有音频特征，所述目标时刻手部关键点坐标为所述目标时长中所述第一时刻以及所述第一时刻之后的所有时刻的手部关键点坐标。

32、此外，为实现上述目的，本技术还提出一种数字人驱动装置，所述装置包括：

33、音频输入模块，用于将待播报音频输入至预设数字人手部动作驱动模型，所述预设数字人手部动作驱动模型中设置有编码器和解码器；

34、音频编码模块，用于通过所述编码器对所述待播报音频进行编码，获得所述待播报音频对应的目标音频特征；

35、坐标确定模块，用于通过所述解码器基于所述目标音频特征，以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标；

36、数字人驱动模块，用于基于所述目标手部动作关键点坐标对所述待驱动数字人进行驱动。

37、此外，为实现上述目的，本技术还提出一种数字人驱动设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如上文所述的数字人驱动方法的步骤。

38、此外，为实现上述目的，本技术还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的数字人驱动方法的步骤。

39、本技术提供了一种数字人驱动方法，本技术公开了将待播报音频输入至预设数字人手部动作驱动模型，预设数字人手部动作驱动模型中设置有编码器和解码器；通过编码器对待播报音频进行编码，获得待播报音频对应的目标音频特征；通过解码器基于目标音频特征，以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标；基于目标手部动作关键点坐标对待驱动数字人进行驱动；相较于现有技术中数字人客服在与客户交流时若缺少手部动作可能使得对话显得单调乏味，缺乏情感表达，甚至可能会影响用户对虚拟数字人的信任感，进而用户体验不佳，由于本发明通过预设数字人手部动作驱动模型中的解码器基于待播报音频对应的目标音频特征，以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标，以基于目标手部动作关键点坐标驱动数字人，从而解决了现有技术中的数字人客服在与用户交流时由于缺少手部动作导致用户体验不佳的技术问题。