技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数字人的唇音同步方法、电子设备及计算机存储介质与流程 > 正文

数字人的唇音同步方法、电子设备及计算机存储介质与流程

国知局
2024-10-09 16:17:20

本申请实施例涉及人工智能，尤其涉及一种数字人的唇音同步方法、电子设备及计算机存储介质。

背景技术：

1、随着虚拟现实等前沿技术的发展，在游戏、影视和动画制作等领域，数字人（digital human）技术具有广阔的应用前景。数字人是运用数字技术创造出来的、与人类形象接近的数字化人物形象，具有多重人类特征，比如，外貌特征、人类表演交互能力等。通过数字人的显示可以提高人机交互效果，其中，数字人在说话过程中的唇音同步尤其重要。

2、目前，生成高质量的3d数字人说话视频主要依赖于对真人的头部动作和面部动作的捕捉，得到训练样本数据，基于训练数据进行神经网络模型的训练，从而利用神经网络模型实现3d数字人的唇音同步。

3、但是，上述方法需要对同一个人进行大量的拍摄工作，导致样本数据数量有限且不易获得，基于此训练得到的模型的唇音同步显示效果不好，真实性和沉浸效果较差。

技术实现思路

1、有鉴于此，本申请实施例提供一种数字人的唇音同步方法、电子设备及计算机存储介质，以至少部分解决上述问题。

2、根据本申请实施例的第一方面，提供了一种数字人的唇音同步方法，包括：获取音频数据和数字人的表情特征数据；根据所述音频数据获取语音特征数据；将所述数字人的表情特征数据和所述语音特征数据输入语音提取表情特征模型，获得所述数字人的目标表情系数；其中，所述语音提取表情特征模型是以根据音画同步视频样本确定的表情特征样本和语音特征样本为输入、结合预训练的唇音同步模型进行训练得到的，所述唇音同步模型用于得到人的唇音同步概率。

3、根据本申请实施例的第二方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。

4、根据本申请实施例的第三方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

5、根据本申请实施例提供的方案，将音频数据对应的语音特征数据和数字人的表情特征数据输入预训练的语音提取表情特征模型，应用语音提取表情特征模型得到数字人的目标表情系数，从而驱动数字人的表情显示。其中，语音提取表情特征模型根据大量的音画同步视频样本结合预训练的唇音同步模型训练完成，语音提取表情特征模型学习了语音和人的面部表情之间的关联，尤其是结合唇音同步模型，学习了语音和人的唇形之间的关联，使得语音提取表情特征模型输出的表情系数驱动的表情接近人的真实表情，表情显示更加准确和真实，唇音更加同步，从而，应用该模型得到的数字人的目标表情系数驱动显示数字人的表情，使得数字人在说话视频中唇音更加同步，提升了显示效果。

技术特征：

1.一种数字人的唇音同步方法，包括：

2.根据权利要求1所述的方法，其中，所述语音提取表情特征模型的训练包括：

3.根据权利要求2所述的方法，其中，

4.根据权利要求2或3所述的方法，其中，所述通过所述语音提取表情特征模型接收所述表情特征样本和所述语音特征样本，输出预测表情系数，包括：

5.根据权利要求2或3所述的方法，其中，所述音频样本和所述预测表情系数均为多帧且对应，所述通过所述唇音同步模型接收所述音频样本和所述预测表情系数，输出唇音同步概率，包括：

6.根据权利要求2或3所述的方法，其中，所述根据所述表情系数样本、所述预测表情系数和所述唇音同步概率，进行所述语音提取表情特征模型的训练，包括：

7.根据权利要求6所述的方法，其中，所述第一损失函数为二维损失函数，所述第二损失函数为一维损失函数。

8.根据权利要求2或3所述的方法，其中，根据所述音画同步视频样本获取表情特征样本和表情系数样本，包括：

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1至8中任一所述的方法。

技术总结本申请实施例提供了一种数字人的唇音同步方法、电子设备及计算机存储介质，其中，数字人的唇音同步方法包括：获取音频数据和数字人的表情特征数据；根据音频数据获取语音特征数据；将数字人的表情特征数据和语音特征数据输入语音提取表情特征模型，获得数字人的目标表情系数；其中，语音提取表情特征模型是以根据音画同步视频样本确定的表情特征样本和语音特征样本为输入、结合预训练的唇音同步模型进行训练得到的，唇音同步模型用于得到人的唇音同步概率。通过本申请实施例，可以使得数字人在说话视频中唇音更加同步，提升了显示效果。技术研发人员：杨超杰,周润楠,闫浩南,张涛受保护的技术使用者：杭州像素互动科技有限公司技术研发日：技术公布日：2024/9/26