一种声音驱动虚拟形象口型方法、装置及介质与流程

2022-06-05 02:40:18 来源：中国专利 TAG：

技术特征：
1.一种声音驱动虚拟形象口型方法，其特征在于，包括：获取通过音频采集设备采集的目标语音；获取所述目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据所述持续时间和所述幅度值获取基本发音口型模型在预设频率下的时序数据；其中，所述基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型。2.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，所述获取所述目标语音中声韵母或音标及其对应的持续时间包括：输入所述目标语音至时间获取模型中；其中，所述时间获取模型为通过神经网络训练的用于识别语音中声韵母或音标及其对应的持续时间的模型；获取所述时间获取模型输出的所述目标语音中声韵母或音标及其对应的所述持续时间。3.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，所述基本发音口型模型的生成过程包括如下步骤：获取不同的声韵母或不同的音标的发音口型，并合并相似的声韵母或音标的发音口型；获取与所述发音口型对应的语音波形包络的幅度值；根据所述发音口型与所述对应的语音波形包络的幅度值生成得到所述基本发音口型模型。4.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，在所述将所述时序数据输入至所述基本发音口型模型之前，还包括：对所述时序数据进行滤波处理和消抖处理。5.根据权利要求1至4任意一项所述的声音驱动虚拟形象口型方法，其特征在于，在所述得到与所述目标语音时间同步的目标口型之后，还包括：输出所述目标口型生成成功的信息。6.根据权利要求5所述的声音驱动虚拟形象口型方法，其特征在于，在所述输出所述目标口型生成成功的信息之后，还包括：将所述目标口型的数据导入虚拟引擎进行渲染，以得到所述目标口型的图像。7.根据权利要求6所述的声音驱动虚拟形象口型方法，其特征在于，在所述将所述目标口型的数据导入虚拟引擎进行渲染之后，还包括：记录根据所述目标语音获取到所述目标口型的过程信息。8.一种声音驱动虚拟形象口型装置，其特征在于，包括：第一获取模块，用于获取通过音频采集设备采集的目标语音；第二获取模块，用于获取所述目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；
第三获取模块，用于根据所述持续时间和所述幅度值获取基本发音口型模型在预设频率下的时序数据；其中，所述基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；输入模块，用于将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型。9.一种声音驱动虚拟形象口型装置，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的声音驱动虚拟形象口型方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的声音驱动虚拟形象口型方法的步骤。

技术总结
本申请公开了一种声音驱动虚拟形象口型方法、装置及介质，涉及人工智能领域。通过获取由音频采集设备采集的目标语音，获取其中的声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，得到与目标语音时间同步的目标口型。上述方案通过采集语音并识别音频中每个词的发音及其对应的时间段，结合声音波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，使得虚拟人物的口型和声音同步，同步效率高且成本低。同步效率高且成本低。同步效率高且成本低。

技术研发人员：唐浩
受保护的技术使用者：成都市谛视无限科技有限公司
技术研发日：2022.05.06
技术公布日：2022/6/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：资源对象处理方法、装置及电子设备与流程

一种声音驱动虚拟形象口型方法、装置及介质与流程

相关文献

最热文献