技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音视频的生成方法、装置、设备及存储介质与流程 > 正文

一种音视频的生成方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:37:55

本发明涉及人工智能领域，尤其涉及一种音视频的生成方法、装置、设备及存储介质。

背景技术：

1、随着人工智能技术的快速发展，人机对话也从曾经的不可想象变为了一种现实，并且呈现形式越来越多样化。一种人机对话的呈现形式是通过构建的数字人形象对用户的语音进行回复，数字人形象可以随着回复内容做出对应的口型。但是目前构建的数字人形象比较生硬，未达到个性化、拟人化，与真实人类存在较大差异。也就是说，构建的数字人与用户的互动性不足。

技术实现思路

1、本技术实施例所要解决的技术问题在于，提供一种音视频的生成方法、装置、设备及存储介质，能够有效提高数字人与交互对象的互动性，从而确保播放的音视频中的数字人更加拟人化。

2、第一方面，本技术实施例提供了一种音视频的生成方法，包括：

3、通过图像传感器获取包含交互对象的图像，以及通过语音传感器获取语音数据；其中，所述交互对象指的是与数字人进行交互的对象；

4、对所述图像进行特征分析，得到所述交互对象的姿态信息；

5、根据所述交互对象的姿态信息，获取所述数字人的姿态信息；其中，所述数字人的姿态信息与所述交互对象的姿态信息相匹配；

6、获取所述语音数据对应的回复语音数据；

7、根据所述回复语音数据和所述数字人的姿态信息，生成数字人视频；其中，所述数字人视频中数字人的口型与所述回复语音数据匹配，所述数字人视频中数字人的姿态与所述数字人的姿态信息匹配；

8、基于所述数字人视频和所述回复语音数据构建音视频，并输出所述音视频。

9、在一种可选的实施方式中，所述姿态信息包括头部特征和眼部特征；

10、所述根据所述交互对象的姿态信息，获取所述数字人的姿态信息，包括：

11、根据眼部特征以及头部特征和视线朝向的对应关系，获取所述交互对象的视线朝向；

12、根据所述交互对象的视线朝向，确定所述数字人的视线朝向；其中，所述数字人的视线朝向与所述交互对象的视线朝向一致；

13、基于所述数字人的视线朝向，获取所述数字人的头部特征和眼部特征；其中，所述数字人的头部特征和眼部特征用于控制所述数字人的视线朝向；

14、生成包含所述数字人的头部特征和眼部特征的姿态信息。

15、在一种可选的实施方式中，所述姿态信息包括肢体特征；

16、所述根据所述交互对象的姿态信息，获取所述数字人的姿态信息，包括：

17、将所述交互对象的肢体特征，确定为所述数字人的肢体特征；

18、生成包含所述数字人的肢体特征的姿态信息。

19、在一种可选的实施方式中，所述姿态信息包括肢体特征；

20、所述根据所述交互对象的姿态信息，获取所述数字人的姿态信息，包括：

21、根据所述交互对象的肢体特征和所述语音数据对应的回复文本数据，确定所述数字人的肢体特征；

22、生成包含所述数字人的肢体特征的姿态信息。

23、在一种可选的实施方式中，所述姿态信息包括表情特征；

24、所述根据所述交互对象的姿态信息，获取所述数字人的姿态信息，包括：

25、根据所述交互对象的表情特征和所述语音数据对应的回复文本数据，确定所述数字人的表情特征；

26、生成包含所述数字人的表情特征的姿态信息。

27、在一种可选的实施方式中，所述方法还包括：

28、响应于对多个语音服务中的任一语音服务的选择操作，调用选择的语音服务；其中，所述多个语音服务包括本地语音服务和第三方语音服务；

29、所述获取所述语音数据对应的回复语音数据，包括：

30、通过调用的语音服务获取所述语音数据对应的回复语音数据。

31、在一种可选的实施方式中，所述获取所述语音数据对应的回复语音数据，包括：

32、对所述语音数据进行文本转换，得到所述语音数据对应的文本数据；

33、若本地数据库中存在与所述文本数据的相似度大于预设阈值的问题信息，则从所述本地数据库中查找所述问题信息对应的回复信息，并将所述回复信息确定为所述文本数据对应的回复文本数据；其中，所述本地数据库中存储有至少一个问题信息以及各个问题信息对应的回复信息；

34、对所述回复文本数据进行语音转换，得到所述语音数据对应的回复语音数据。

35、在一种可选的实施方式中，所述通过语音传感器获取语音数据，包括：

36、实时采集交互对象的语音数据，若从上一次采集结束点至当前系统时间所经过的时间段达到预设时长，则获取从上一次采集结束点至当前系统时间所采集到的语音片段；

37、所述获取所述语音数据对应的回复语音数据，包括：

38、获取所述语音片段对应的回复语音数据。

39、在一种可选的实施方式中，所述通过语音传感器获取语音数据，包括：

40、实时采集交互对象的语音数据，若从上一次采集结束点至当前系统时间所采集到的音素数量达到预设阈值，则获取从上一次采集结束点至当前系统时间所采集到的语音片段；

41、所述获取所述语音数据对应的回复语音数据，包括：

42、获取所述语音片段对应的回复语音数据。

43、第二方面，本技术实施例提供了一种音视频的生成装置，该装置包括：

44、输入单元，用于通过图像传感器获取包含交互对象的图像，以及通过语音传感器获取语音数据；其中，所述交互对象指的是与数字人进行交互的对象；

45、处理单元，用于对所述图像进行特征分析，得到所述交互对象的姿态信息；根据所述交互对象的姿态信息，获取所述数字人的姿态信息；其中，所述数字人的姿态信息与所述交互对象的姿态信息相匹配；获取所述语音数据对应的回复语音数据；根据所述回复语音数据和所述数字人的姿态信息，生成数字人视频；其中，所述数字人视频中数字人的口型与所述回复语音数据匹配，所述数字人视频中数字人的姿态与所述数字人的姿态信息匹配；基于所述数字人视频和所述回复语音数据构建音视频；

46、输出单元，用于输出所述音视频。

47、第三方面，本技术实施例提供了一种计算机设备，该计算机设备包括存储器、通信接口以及处理器，其中，存储器、通信接口和处理器相互连接；存储器存储有计算机程序，处理器调用所述存储器中存储的计算机程序，用于实现上述第一方面的方法。

48、第四方面，本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面的方法。

49、第五方面，本技术实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的方法。

50、第六方面，本技术实施例提供了一种计算机程序，该计算机程序包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的方法。

51、在本技术实施例中，可以通过图像传感器获取包含交互对象的图像，对该图像进行特征分析，得到交互对象的姿态信息，根据交互对象的姿态信息，获取数字人的姿态信息，数字人的姿态信息与交互对象的姿态信息相匹配。还可以通过语音传感器获取语音数据，根据该语音数据对应的回复语音数据和数字人的姿态信息，生成数字人视频，基于数字人视频和回复语音数据构建音视频，并输出音视频。其中，数字人视频中数字人的口型与回复语音数据匹配，数字人视频中数字人的姿态与数字人的姿态信息匹配，因此，可以实现交互对象与数字人的肢体互动，能够有效提高数字人与交互对象的互动性，从而确保播放的音视频中的数字人更加拟人化。