技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于数字人口型生成的流式优化系统及方法与流程  >  正文

一种基于数字人口型生成的流式优化系统及方法与流程

  • 国知局
  • 2024-06-21 11:55:01

本发明涉及计算机人工智能,具体涉及一种基于数字人口型生成的流式优化系统及方法。

背景技术:

1、数字人(digital human / meta human)是运用数字技术创造出来的与人类形象接近的数字化人物形象,存在于非物理世界中,由计算机手段创造及使用并具有多重人类特征(比如外貌特征、人类表演能力 交互能力等)的综合产物。数字人口型则是数字人说话或发音时的口部形状,比如说发某个声音时两唇的形状。随着数字人相关技术的不断发展,其运用门槛也相对降低,这也将数字人相较于真人的优势凸显了出来。由于数字人不需要饮食睡眠,也不会疲倦生病,可以做到24小时不间断地工作,因而数字人可以大幅减少人力成本。目前,数字人口型生成技术进步显著,但由于脸部表情和口型之间相互依赖,整个口型生成流程串行执行、处理时间过长,口型生成处理仍存在效率较低的问题,难以满足实时交互的需求。

技术实现思路

1、本发明提供一种基于数字人口型生成的流式优化系统及方法,解决了口型生成处理效率低的技术问题。

2、本发明提供的基础方案为:一种基于数字人口型生成的流式优化系统,包括:

3、语音输入模块,所述语音输入模块用于持续采集语音数据,在采集语音数据的同时,将采集到的语音数据逐帧连续转化为字符流,所述字符流生成多个文本数据,多个所述文本数据逐帧按照时间先后顺序排列;

4、文本处理模块,所述文本处理模块在语言输入持续过程中,按照排列顺序持续调用文本数据,将文本数据进行分析,分析后形成文本处理结果;

5、口型生成模块,所述口型生成模块用于持续获取文本处理结果,口型生成模块内设置有口型生成子模块,口型生成子模块根据文本处理结果生成口型参数。

6、本发明的工作原理及优点在于:本方案采用了流式处理技术,流式优化减小了响应时间,当用户的语音输入后,数字人口型响应可以在非常短的时间内完成,生成数字人口型的交互响应速度提升,达到近实时效果,从而给用户更流畅更自然的沟通感受;与现有技术相比,本方案不需要等待整个语音结束才处理,减少了延迟,而且本方案中语音、文本数据、数字人口型的生成,都采用流式处理,逐步输出,不用进行等待,能够大幅减少处理延迟,提高交互响应速度。

7、本发明运用流式处理减少数字人口型生成的延迟,同时运用多线程处理提高效率,解决了口型生成处理效率低的技术问题。

8、进一步,所述文本处理模块还设置有文本数据缓存队列,将获取的文本数据按照时间先后顺序逐帧连续排入到文本数据缓存队列中。

9、有益效果在于:每当有新的文本数据时,就会按照先后顺序将其排入文本数据缓存队列,可以避免重复计算。

10、进一步,所述文本处理模块包括多个并行调用线程,每个调用线程用于在同一时间分别处理文本数据帧。

11、有益效果在于:采用多线程并行处理,使得每个线程可以同时处理一个相应的文本数据帧,这样可以提高吞吐量。

12、进一步,所述口型生成模块内还设置有数字人口型参数缓存空间,所述数字人口型参数缓存空间用于存储已经生成的数字人口型参数,当获取到文本处理结果时,所述口型生成模块首先查找数字人口型参数缓存空间是否存在相应的口型参数,存在相应的口型则读取相应的口型参数,不存在相应的口型则通过口型生成子模块生成口型参数用于直接调用,同时将生成的口型参数存储到数字人口型参数缓存空间。

13、有益效果在于:当数字人口型参数缓存空间存在相应的口型时,可以直接同步读取相应的口型,而不用去生成口型,从而提高处理效率。

14、基于上述公开的一种基于数字人口型生成的流式优化系统,本发明还提供一种基于数字人口型生成的流式优化方法,包括步骤:

15、s1、语音输入模块采用流式语音转文本算法,将语音作为数据流逐帧输入并转化为字符流,字符流包括多个文本数据,文本数据逐帧按照先后顺序排列;

16、s2、文本处理模块按照先后顺序逐帧获取文本数据并进行分析,得到文本处理结果;

17、s3、口型生成模块通过并行线程获取文本处理结果,并同时将多个文本处理结果分别生成口型参数;

18、s4、数字人视频画面根据语音逐帧匹配调用口型参数,使得数字人口型与语音的同步匹配。

19、本发明的工作原理及优点在于:本方案采用了流式处理技术,流式优化减小了响应时间,当用户的语音输入后,数字人口型响应可以在非常短的时间内完成,生成数字人口型的交互响应速度提升,达到近实时效果,从而给用户更流畅更自然的沟通感受;与现有技术相比,本方案不需要等待整个语音结束才处理,减少了延迟,而且本方案中语音、文本数据、数字人口型的生成,都采用流式处理,逐步输出,不用进行等待,能够大幅减少处理延迟,提高交互响应速度。

20、进一步,在s2中,文本处理模块还设置文本数据缓存队列,并将获取的文本数据按照先后顺序逐帧排入文本数据缓存队列。

21、有益效果在于:每当有新的文本数据时,就会按照先后顺序将其排入文本数据缓存队列,可以避免重复计算。

22、进一步,在s2中,文本处理模块采用多线程并行,每个线程同一时间分别处理一个文本数据帧。

23、有益效果在于:采用多线程并行处理,使得每个线程可以同时处理一个相应的文本数据帧,这样可以提高吞吐量。

24、进一步,在s3中,口型生成模块还设置数字人口型参数缓存空间,数字人口型参数缓存空间存储已经生成的数字人口型参数,当获取到文本处理结果时,口型生成模块查找数字人口型参数缓存空间,判断是否存在相应的口型,存在相应的口型则同步读取相应的口型,不存在相应的口型则异步生成口型,并将生成的口型存储到数字人口型参数缓存空间。

25、有益效果在于:当数字人口型参数缓存空间存在相应的口型时,可以直接同步读取相应的口型,而不用去生成口型,从而提高处理效率。

技术特征:

1.一种基于数字人口型生成的流式优化系统,其特征在于,包括:

2.如权利要求1所述的一种基于数字人口型生成的流式优化系统,其特征在于,所述文本处理模块还设置有文本数据缓存队列,将获取的文本数据按照时间先后顺序逐帧连续排入到文本数据缓存队列中。

3.如权利要求2所述的一种基于数字人口型生成的流式优化系统,其特征在于,所述文本处理模块在逐帧连续排入到文本数据缓存队列中,需对语音文本进行切分,其切分方式是将音频放慢,按照语音中超过100毫秒,音量低于-50进行切分,去除低于1秒语音段。

4.如权利要求3所述的一种基于数字人口型生成的流式优化系统,其特征在于,所述文本处理模块包括多个并行调用线程,每个调用线程用于在同一时间分别处理文本数据帧。

5.如权利要求4所述的一种基于数字人口型生成的流式优化系统,其特征在于,所述口型生成模块内还设置有数字人口型参数缓存空间,所述数字人口型参数缓存空间用于存储已经生成的数字人口型参数,当获取到文本处理结果时,所述口型生成模块首先查找数字人口型参数缓存空间是否存在相应的口型参数,存在相应的口型则读取相应的口型参数,不存在相应的口型则通过口型生成子模块生成口型参数用于直接调用,同时将生成的口型参数存储到数字人口型参数缓存空间。

6.一种基于数字人口型生成的流式优化方法,其特征在于,包括步骤:

7.如权利要求6所述的一种基于数字人口型生成的流式优化方法,其特征在于,在s2中,文本处理模块还设置文本数据缓存队列,并将获取的文本数据按照先后顺序逐帧排入文本数据缓存队列。

8.如权利要求7所述的一种基于数字人口型生成的流式优化方法,其特征在于,在s2中,文本处理模块采用多线程并行,每个线程同一时间分别处理一个文本数据帧。

9.如权利要求8所述的一种基于数字人口型生成的流式优化方法,其特征在于,在s3中,口型生成模块还设置数字人口型参数缓存空间,数字人口型参数缓存空间存储已经生成的数字人口型参数,当获取到文本处理结果时,口型生成模块查找数字人口型参数缓存空间,判断是否存在相应的口型,存在相应的口型则同步读取相应的口型,不存在相应的口型则异步生成口型,并将生成的口型存储到数字人口型参数缓存空间。

技术总结本发明涉及人工智能技术领域,具体涉及一种基于数字人口型生成的流式优化系统及方法,其中系统包括:语音输入模块,用于持续采集语音数据,在采集语音数据的同时,将采集到的语音数据逐帧连续转化为字符流,所述字符流生成多个文本数据,多个所述文本数据逐帧按照时间先后顺序排列;文本处理模块,所述文本处理模块在语言输入持续过程中,按照排列顺序持续调用文本数据,将文本数据进行分析,分析后形成文本处理结果;口型生成模块,所述口型生成模块用于持续获取文本处理结果,口型生成模块内设置有口型生成子模块,口型生成子模块根据文本处理结果生成口型参数。本发明解决了口型生成处理效率低的技术问题。技术研发人员:陶澍受保护的技术使用者:重庆虚拟实境科技有限公司技术研发日:技术公布日:2024/5/29

本文地址:https://www.jishuxx.com/zhuanli/20240618/24464.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。