技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于离散编码的语音驱动嘴型生成方法及装置与流程 > 正文

基于离散编码的语音驱动嘴型生成方法及装置与流程

国知局
2024-06-21 11:38:07

本申请涉及语音处理，具体而言，涉及一种基于离散编码的语音驱动嘴型生成方法及装置。

背景技术：

1、随着人工智能技术的不断发展，各种生成模型被广泛应用于各个领域。其中，嘴型生成作为表情生成的重要组成部分，越来越受到关注。

2、在现有的技术方案中，一种常见的方法是基于语音驱动的嘴型生成。这种方案通过分析输入的语音信号，生成与语音内容相匹配的嘴型动画。然而，这种方法存在一些缺陷。首先，语音信号与嘴型动画之间的映射关系很复杂，很难找到一种能够精确反映各种嘴型变化的映射算法。其次，由于人的语音和嘴型变化都是连续的，而现有的方法在处理这种连续性时往往会出现跳变和不够连续的问题。此外，由于光照、表情、角度等多种因素的变化，真实世界中的嘴型变化非常复杂，现有的技术方案往往难以生成自然和真实的嘴型动画。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种基于离散编码的语音驱动嘴型生成方法及装置，以至少解决现有技术中生成嘴型的自然度不高的技术问题。

2、根据本申请实施例的一个方面，提供了一种基于离散编码的语音驱动嘴型生成方法，包括：采用向量量化的方式对面部图片进行离散编码，得到多个第一离散向量，并将所述离散向量转化为中间特征；对所述中间特征进行解码，得到与所述第一离散向量的维度对应的第二离散向量，并基于所述第二离散向量生成嘴型。

3、根据本申请实施例的另一方面，还提供了一种基于离散编码的语音驱动嘴型生成装置，包括：面部离散编码模块，被配置为采用向量量化的方式对面部图片进行离散编码，得到多个第一离散向量，并将所述离散向量转化为中间特征；脸部生成模块，被配置为对所述中间特征进行解码，得到与所述第一离散向量的维度对应的第二离散向量，并基于所述第二离散向量生成嘴型。

4、在本申请实施例中，采用向量量化的方式对面部图片进行离散编码，得到多个第一离散向量，并将所述离散向量转化为中间特征；对所述中间特征进行解码，得到与所述第一离散向量的维度对应的第二离散向量，并基于所述第二离散向量生成嘴型。通过上述方案，解决了现有技术中生成嘴型的自然度不高的技术问题。

技术特征：

1.一种基于离散编码的语音驱动嘴型生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在生成所述嘴型之后，所述方法还包括：基于所生成的嘴型和从目标视频中提取的音频，来判定所述嘴型和所述音频是否同步。

3.根据权利要求1所述的方法，其特征在于，采用向量量化的方式对面部图片进行离散编码，得到多个第一离散向量，包括：

4.根据权利要求3所述的方法，其特征在于，在对所述面部图片中的第二面部图片进行面部姿态编码之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在掩蔽所述下半脸图片中的信息之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，对所述中间特征进行解码，得到与所述第一离散向量的维度对应的第二离散向量，并基于所述第二离散向量生成嘴型，包括：

7.根据权利要求1所述的方法，其特征在于，所述第二离散向量是使用向量空间的vq向量。

8.一种基于离散编码的语音驱动嘴型生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至7中任一项所述的方法。

技术总结本申请提供了一种基于离散编码的语音驱动嘴型生成方法及装置，其中，该方法包括：采用向量量化的方式对面部图片进行离散编码，得到多个第一离散向量，并将所述离散向量转化为中间特征；对所述中间特征进行解码，得到与所述第一离散向量的维度对应的第二离散向量，并基于所述第二离散向量生成嘴型。本申请解决了现有技术中生成嘴型的自然度不高的技术问题。技术研发人员：蒋正浩,张鹏起,李睿,李建成受保护的技术使用者：世优（北京）科技有限公司技术研发日：技术公布日：2024/3/24