技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于智能语义分析的角色目标表情动画生成方法及系统与流程 > 正文

基于智能语义分析的角色目标表情动画生成方法及系统与流程

国知局
2024-06-21 11:40:32

本技术涉及人工智能，具体涉及一种基于智能语义分析的角色目标表情动画生成方法及系统。

背景技术：

1、随着计算机技术的不断发展，虚拟角色动画技术也在不断发展。用户对于虚拟角色的表情动画生成质量的要求也越来越高。然而，现如今在虚拟角色的表情动画生成的时候，生成的虚拟角色表情与声音的匹配程度较差，从而导致生成的虚拟角色整体表情的真实性较低。

2、因此，亟需一种基于智能语义分析的角色目标表情动画生成方法及系统来解决当前技术存在的问题。

技术实现思路

1、本技术提供了一种基于智能语义分析的角色目标表情动画生成方法及系统，可以提高生成的虚拟角色表情与声音的匹配程度，从而使得生成的虚拟角色整体表情更加真实。

2、第一方面，本技术提供了一种基于智能语义分析的角色目标表情动画生成方法，所述方法包括：获取第一音频流和第二音频流；确定所述第一音频流和所述第二音频流之间的间隔时长；当所述间隔时长处于预设间隔时长范围内时，从所述第一音频流中提取得到第一子音频流，并从所述第二音频流中提取得到第二子音频流；基于所述第一音频流，得到角色表情关键动画；基于所述第一子音频流和所述第二子音频流，得到角色表情过渡动画；将所述角色表情关键动画和所述角色表情过渡动画进行合成，得到角色目标表情动画，并将所述角色目标表情动画下发至用户端。

3、通过采用上述技术方案，通过获取第一音频流和第二音频流，从而确保生成的角色目标表情动画能够围绕具体的音频内容展开，增加动画与音频内容的匹配程度和准确性；通过确定第一音频流和第二音频流之间的间隔时长，从而能够有效评估两段音频的关联性，进而生成更加连贯的动画序列；通过基于第一音频流得到角色表情关键动画，从而确保角色表情关键动画在视觉和情感上能够准确反映第一音频流的内容；通过基于第一子音频流和第二子音频流得到角色表情过渡动画，从而实现音频流之间平滑的情感和视觉过渡，增强整个动画的连贯性；通过将角色表情关键动画和角色表情过渡动画进行合成，得到角色目标表情动画，并将其下发至用户端，从而通过生成的角色目标表情动画使得虚拟角色整体表情更加真实。

4、可选的，所述基于所述第一音频流，得到角色表情关键动画，具体包括：按照预设语音转换规则对所述第一音频流进行转换，得到语音文字序列，其中，所述语音文字序列包括多个语音文字信息；按照预设语音分段规则对所述第一音频流进行分段，得到语音段落序列，其中，所述语音段落序列包括多个语音段落；基于多个所述语音文字信息，得到角色嘴部关键动画；基于多个所述语音段落，得到角色面部关键动画；将所述角色嘴部关键动画和所述角色面部关键动画进行融合，得到所述角色表情关键动画。

5、通过采用上述技术方案，通过按照预设语音转换规则对第一音频流进行转换，得到语音文字序列，从而能够精确地将音频内容转化为文字形式，为后续的情感分析和动画制作提供详细的、结构化的信息；通过按照预设语音分段规则对第一音频流进行分段，得到语音段落序列，从而能够将音频内容划分为更易管理和分析的小段，使得每个段落都可以独立处理，以便更准确地对应相应的表情动画；通过基于多个语音文字信息得到角色嘴部关键动画，从而确保角色的嘴型动画与实际语音内容紧密对应，提高动画的真实性；通过基于多个语音段落得到角色面部关键动画，从而能够更全面地捕捉和表达音频中的情绪变化，使动画在表情上更加丰富和真实；通过将角色嘴部关键动画和角色面部关键动画进行融合的方案，从而得到一个更加完整和真实的角色表情关键动画。

6、可选的，各个所述语音文字信息包括发音信息、发音开始时间以及发音结束时间；所述基于多个所述语音文字信息，得到角色嘴部关键动画，具体包括：基于多个所述发音信息，提取得到多个发音特征；基于多个所述发音特征，匹配得到多个角色口型动画；基于多个所述发音特征、多个所述发音开始时间以及多个所述发音结束时间，确定多个相邻发音特征；基于多个所述相邻发音特征，生成多个中间帧；基于多个所述角色口型动画、多个所述中间帧、多个所述发音开始时间以及多个所述发音结束时间，生成所述角色嘴部关键动画。

7、可选的，所述基于多个所述语音段落，得到角色面部关键动画，具体包括：对各个所述语音段落进行文本识别，得到各个所述语音段落对应的语音文本；按照预设情绪关键词库对各个所述语音文本进行情绪关键词识别，得到各个所述语音段落对应的文本情绪集合，所述文本情绪集合中包括至少一种文本情绪特征；对各个所述语音段落进行语音情绪识别，得到各个所述语音段落对应的语音情绪集合，所述语音情绪集合中包括至少一种语音情绪特征；基于各个所述文本情绪集合和各个所述语音情绪集合，得到各个所述语音段落对应的情绪系数；基于各个所述情绪系数，匹配得到各个所述语音段落对应的角色面部神态动画；将各个所述角色面部神态动画进行整合，得到所述角色面部关键动画。

8、可选的，所述基于各个所述文本情绪集合和各个所述语音情绪集合，得到各个所述语音段落对应的情绪系数，具体包括：基于所述文本情绪集合中各个所述文本情绪特征，确定各个所述文本情绪特征在对应的情绪维度上的第一情绪强度；基于所述语音情绪集合中各个所述语音情绪特征，确定各个所述语音情绪特征在对应的情绪维度上的第二情绪强度；通过以下公式计算得到各个所述语音段落对应的情绪系数：其中，c为所述情绪系数，为第i种所述文本情绪特征对应的第一情绪强度，为第i种所述文本情绪特征对应的权重因子，为第j种所述语音情绪特征对应的第二情绪强度，为第j种所述语音情绪特征对应的权重因子。

9、可选的，所述基于所述第一子音频流和所述第二子音频流，得到角色表情过渡动画，具体包括：对所述第一子音频流进行语音情绪识别，得到初始情绪集合，所述初始情绪集合中包括n个初始情绪特征；对所述第二子音频流进行语音情绪识别，得到终点情绪集合，所述终点情绪集合中包括n个终点情绪特征；基于各个所述初始情绪特征，确定各个所述初始情绪特征在对应的情绪维度上的第三情绪强度；基于各个所述终点情绪特征，确定各个所述终点情绪特征在对应的情绪维度上的第四情绪强度；基于所述第三情绪强度和所述第四情绪强度，得到情绪变化系数；基于所述情绪变化系数，匹配得到所述角色表情过渡动画。

10、通过采用上述技术方案，通过对第一子音频流进行语音情绪识别，得到初始情绪集合，从而能够准确捕捉角色表情过渡开始部分的情绪特征；通过对第二子音频流进行语音情绪识别，得到终点情绪集合，从而能够精确地识别角色表情过渡结束部分的情绪特征；通过量化各个初始情绪特征和各个终点情绪特征的情绪强度，并基于第三情绪强度和第四情绪强度，得到情绪变化系数，从而为角色表情过渡动画中的情绪转变提供量化依据，进而使得匹配得到所述角色表情过渡动画可以更加自然，使整个动画流畅且连贯。

11、可选的，所述基于所述第三情绪强度和所述第四情绪强度，得到情绪变化系数，具体包括：通过以下公式计算得到所述情绪变化系数：其中，k为所述情绪变化系数，为第m个所述终点情绪特征对应的第四情绪强度，为第m个所述初始情绪特征对应的第三情绪强度。

12、在本技术的第二方面提供了一种基于智能语义分析的角色目标表情动画生成系统，所述系统包括获取模块、音频处理模块和动画处理模块；所述获取模块，用于获取第一音频流和第二音频流；所述音频处理模块，用于确定所述第一音频流和所述第二音频流之间的间隔时长；所述音频处理模块，还用于当所述间隔时长处于预设间隔时长范围内时，从所述第一音频流中提取得到第一子音频流，并从所述第二音频流中提取得到第二子音频流；所述动画处理模块，用于基于所述第一音频流，得到角色表情关键动画；所述动画处理模块，还用于基于所述第一子音频流和所述第二子音频流，得到角色表情过渡动画；所述动画处理模块，还用于将所述角色表情关键动画和所述角色表情过渡动画进行合成，得到角色目标表情动画，并将所述角色目标表情动画下发至用户端。

13、在本技术的第三方面提供了一种电子设备，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其它设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行如本技术第一方面任意一项所述的方法。

14、在本技术的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有能够被处理器加载并执行如本技术第一方面任意一项所述的方法的计算机程序。

15、综上所述，本技术实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

16、1、通过获取第一音频流和第二音频流，从而确保生成的角色目标表情动画能够围绕具体的音频内容展开，增加动画与音频内容的匹配程度和准确性；通过确定第一音频流和第二音频流之间的间隔时长，从而能够有效评估两段音频的关联性，进而生成更加连贯的动画序列；通过基于第一音频流得到角色表情关键动画，从而确保角色表情关键动画在视觉和情感上能够准确反映第一音频流的内容；通过基于第一子音频流和第二子音频流得到角色表情过渡动画，从而实现音频流之间平滑的情感和视觉过渡，增强整个动画的连贯性；通过将角色表情关键动画和角色表情过渡动画进行合成，得到角色目标表情动画，并将其下发至用户端，从而通过生成的角色目标表情动画使得虚拟角色整体表情更加真实。

17、2、通过按照预设语音转换规则对第一音频流进行转换，得到语音文字序列，从而能够精确地将音频内容转化为文字形式，为后续的情感分析和动画制作提供详细的、结构化的信息；通过按照预设语音分段规则对第一音频流进行分段，得到语音段落序列，从而能够将音频内容划分为更易管理和分析的小段，使得每个段落都可以独立处理，以便更准确地对应相应的表情动画；通过基于多个语音文字信息得到角色嘴部关键动画，从而确保角色的嘴型动画与实际语音内容紧密对应，提高动画的真实性；通过基于多个语音段落得到角色面部关键动画，从而能够更全面地捕捉和表达音频中的情绪变化，使动画在表情上更加丰富和真实；通过将角色嘴部关键动画和角色面部关键动画进行融合的方案，从而得到一个更加完整和真实的角色表情关键动画。

18、3、通过对第一子音频流进行语音情绪识别，得到初始情绪集合，从而能够准确捕捉角色表情过渡开始部分的情绪特征；通过对第二子音频流进行语音情绪识别，得到终点情绪集合，从而能够精确地识别角色表情过渡结束部分的情绪特征；通过量化各个初始情绪特征和各个终点情绪特征的情绪强度，并基于第三情绪强度和第四情绪强度，得到情绪变化系数，从而为角色表情过渡动画中的情绪转变提供量化依据，进而使得匹配得到所述角色表情过渡动画可以更加自然，使整个动画流畅且连贯。