技术新讯 > 计算推算,计数设备的制造及其应用技术 > 口型动画序列生成方法及装置与流程 > 正文

口型动画序列生成方法及装置与流程

国知局
2024-12-06 12:08:09

本公开涉及计算机，尤其涉及一种口型动画序列生成方法及装置。

背景技术：

1、随着游戏等行业的发展，用户与虚拟角色之间的交互也越来越多样化，在用户能够与虚拟角色对话的场景中，虚拟角色会基于用户的语音或文字输入，发出对应的语音同时虚拟角色也会展示对应的口型。然而，相关技术中虚拟角色的口型与发出的语音之间存在同步和精准性低、适应范围单一、人工成本高、处理时间长等不同程度的问题。

技术实现思路

1、有鉴于此，本公开提出了一种口型动画序列生成方法及装置。

2、根据本公开的一方面，提供了一种口型动画序列生成方法，所述方法包括：

3、对输入信息进行处理，得到对应所述输入信息的音素序列，所述输入信息包括输入音频和/或输入文本；

4、基于所述音素序列和匹配出的目标映射表，确定出所述音素序列中各音素对应的视素，形成视素序列，所述目标映射表中记录有第一对应关系，所述第一对应关系表示音素与视素之间的对应关系；

5、根据所述视素序列和对应的目标信息，对各视素在所述视素序列中的权重进行调整，形成调整后视素序列，所述目标信息包括目标时间戳，所述目标时间戳中指示所述音素序列中的各所述音素的起始时间点和结束时间点；

6、基于所述目标映射表，确定所述调整后视素序列中各所述视素对应的口型动画，所述目标映射表中还记录有第二对应关系，所述第二对应关系表示视素与口型动画之间的对应关系；

7、根据所述口型动画，生成与所述输入信息对应的口型动画序列。

8、在一种可能的实现方式中，所述方法还包括：

9、基于所述输入信息确定出对应的语音特征；

10、根据所述语音特征从多个可选映射表中，确定出匹配的目标映射表；

11、其中，所述语音特征包括语种，各所述可选映射表中的所述第一对应关系和所述第二对应关系与该可选映射表对应的语音特征匹配。

12、在一种可能的实现方式中，所述语音特征还包括以下至少一种：方言类型、叠加对象的类型、叠加对象的性别、年龄，所述叠加对象包括朗读所述输入信息的对象。

13、在一种可能的实现方式中，对输入信息进行处理，得到对应所述输入信息的音素序列，包括：

14、在所述输入信息包括输入音频和输入文本的情况下，将所述输入文本转换为对应的音素序列，

15、利用第一预设模型对所述输入音频进行分析处理，得到对应所述输入音频的音素概率分布序列，并基于所述音素概率分布序列和所述音素序列，生成对应的目标时间戳，

16、其中，所述音素概率分布序列用于指示所述输入音频中不同时间步所对应的音素的概率向量，所述目标时间戳用于指示所述音素序列中的各所述音素在所述输入音频中的起始时间点和结束时间点。

17、在一种可能的实现方式中，对输入信息进行处理，得到对应所述输入信息的音素序列，包括：

18、在所述输入信息包括输入音频的情况下，利用第二预设模型对所述输入音频进行分析处理，得到对应所述输入音频的音素概率分布序列，并根据所述音素概率分布序列确定出对应的音素序列以及生成对应的目标时间戳，

19、其中，所述音素概率分布序列用于指示所述输入音频中不同时间步所对应的音素的概率向量，所述目标时间戳用于指示所述音素序列中的各所述音素在所述输入音频中的起始时间点和结束时间点。

20、在一种可能的实现方式中，对输入信息进行处理，得到对应所述输入信息的音素序列，包括：

21、在所述输入信息包括输入文本的情况下，将所述输入文本转换为对应的音素序列，以及利用预设音频生成模型生成对应于所述输入文本的生成音频，

22、利用第一预设模型对所述生成音频进行分析处理，得到对应所述生成音频的音素概率分布序列，并基于所述音素概率分布序列和所述音素序列，生成对应的目标时间戳，

23、其中，所述音素概率分布序列用于指示所述生成音频中不同时间步所对应的音素的概率向量，所述目标时间戳用于指示所述音素序列中的各所述音素在所述生成音频中的起始时间点和结束时间点。

24、在一种可能的实现方式中，所述目标信息还包括各所述音素的音量，

25、根据所述视素序列和对应的目标信息，对各视素在所述视素序列中的权重进行调整，形成调整后视素序列，包括：

26、基于所述目标信息，确定出各所述视素对应的音量和持续时长；

27、根据各所述视素对应的音量和持续时长，对各所述视素在所述视素序列中的权重进行调整，形成调整后视素序列。

28、在一种可能的实现方式中，所述方法还包括：

29、将所述口型动画序列叠加到预设的目标对象模型中，生成包括口型变化的目标对象动画；其中，所述目标对象包括朗读所述输入信息的对象。

30、在一种可能的实现方式中，所述方法还包括：

31、对所述口型动画序列中的口型动画进行过渡处理；

32、其中，所述过渡处理包括以下至少一项：

33、根据对应的协同发音规则，对所述口型动画序列中的口型动画进行调整；

34、在相邻的口型动画之间插入至少一个过渡口型动画；

35、利用平滑算法调整所述口型动画序列中口型的变化幅度和速度。

36、根据本公开的另一方面，提供了一种口型动画序列生成装置，所述装置包括：

37、输入处理模块，用于对输入信息进行处理，得到对应所述输入信息的音素序列，所述输入信息包括输入音频和/或输入文本；

38、视素序列确定模块，用于基于所述音素序列和匹配出的目标映射表，确定出所述音素序列中各音素对应的视素，形成视素序列，所述目标映射表中记录有第一对应关系，所述第一对应关系表示音素与视素之间的对应关系；

39、序列调整模块，用于根据所述视素序列和对应的目标信息，对各视素在所述视素序列中的权重进行调整，形成调整后视素序列，所述目标信息包括目标时间戳，所述目标时间戳中指示所述音素序列中的各所述音素的起始时间点和结束时间点；

40、口型动画确定模块，用于基于所述目标映射表，确定所述调整后视素序列中各所述视素对应的口型动画，所述目标映射表中还记录有第二对应关系，所述第二对应关系表示视素与口型动画之间的对应关系

41、序列生成模块，用于根据所述口型动画，生成与所述输入信息对应的口型动画序列。

42、根据本公开的另一方面，提供了一种口型动画序列生成装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

43、根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

44、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

45、本公开实施例提供的口型动画序列生成方法及装置。以输入音频和/或输入文本作为输入生成口型动画序列，降低了口型动画序列的输入数据要求。利用与输入信息匹配的目标映射表实现基于输入信息生成的音素序列到视素序列、再到口型动画序列的生成。所生成的口型动画序列适合不同口音、语种等语音特征，且生成口型动画序列的速度快、时间短，与语音的同步匹配程度好、精准性高，无需人工调试人工成本低。

46、根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。