技术新讯 > 乐器声学设备的制造及制作,分析技术 > 虚拟数字人的发音纠正方法、电子设备、装置及存储介质与流程  >  正文

虚拟数字人的发音纠正方法、电子设备、装置及存储介质与流程

  • 国知局
  • 2024-06-21 11:57:06

本申请涉及电子设备领域,尤其涉及一种虚拟数字人的发音纠正方法、电子设备、装置及存储介质。

背景技术:

1、产业的发展,虚拟数字人是运用先进技术构建真人的“数字孪生”,也是元宇宙用户在元宇宙空间的交互界面。它依赖于显示设备而存在,具有三方面特征:人的外观、人的行为及人的思想。

2、在实践中发现,大部分虚拟数字人说话时的唇形相对固定,往往不能够做针对不同用户做到个性化的定制。

技术实现思路

1、本申请实施例提供了一种虚拟数字人的发音纠正方法、电子设备、装置及存储介质,可以使得虚拟数字人实现个性化的发音。

2、本申请实施例第一方面提供了一种虚拟数字人的发音纠正方法,包括:

3、获取待播报内容的初始发音信息,所述初始发音信息包括初始语速信息和/或初始唇形信息;

4、根据第一发音纠正库纠正所述初始发音信息,得到目标发音信息;

5、根据所述目标发音信息,控制所述虚拟数字人播报所述待播报内容。

6、本申请实施例第二方面提供了一种虚拟数字人的发音纠正装置,包括:

7、获取单元,用于获取待播报内容的初始发音信息,所述初始发音信息包括初始语速信息和/或初始唇形信息;

8、纠正单元,用于根据第一发音纠正库纠正所述初始发音信息,得到目标发音信息;

9、播报单元,用于根据所述目标发音信息,控制所述虚拟数字人播报所述待播报内容。

10、本申请实施例第三方面提供了一种电子设备,包括:

11、存储有可执行程序代码的存储器;

12、以及所述存储器耦合的处理器;

13、所述处理器调用所述存储器中存储的所述可执行程序代码,所述可执行程序代码被所述处理器执行时,使得所述处理器实现如本申请实施例第一方面所述的方法。

14、本申请实施例第四方面提供一种计算机可读存储介质,其上存储有可执行程序代码,所述可执行程序代码被处理器执行时,实现如本申请实施例第一方面所述的方法。

15、本申请实施例第五方面公开一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行本申请实施例第一方面所述的方法。

16、本申请实施例第六方面公开一种应用发布平台,该应用发布平台用于发布计算机程序产品,其中,当该计算机程序产品在计算机上运行时,使得该计算机执行本申请实施例第一方面所述的方法。

17、从以上技术方案可以看出,本申请实施例具有以下优点:

18、在本申请实施例中,获取待播报内容的初始发音信息,初始发音信息包括初始语速信息和/或初始唇形信息;根据第一发音纠正库纠正初始发音信息,得到目标发音信息;根据目标发音信息,控制虚拟数字人播报待播报内容。

19、通过实施该方法,虚拟数字人在播报待播报内容之前,先利用第一发音纠正库,对待播报内容的初始发音信息进行纠正,然后虚拟数字人再按照纠正后的发音信息播报待播报内容,可以使得虚拟数字人实现个性化的发音。

技术特征:

1.一种虚拟数字人的发音纠正方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述初始语速信息包括所述待播报内容的每一音素的初始语速,所述初始唇形信息包括所述待播报内容的每一音素的初始唇形坐标;

3.根据权利要求1所述的方法,其特征在于,所述根据第一发音纠正库纠正所述初始发音信息,以得到目标发音信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述第一发音纠正库包括第一唇形纠正库和第一语速纠正库,所述第一发音纠正库是根据目标用户和所述虚拟数字人分别播报指定内容时的第一音视频信息和第二音视频信息构建得到的,所述第一音视频信息包括第一音频和第一视频,所述第二音视频信息包括第二音频和第二视频,

5.根据权利要求4所述的方法,其特征在于,所述根据每一音素对应的第一关键帧和第二关键帧,构建所述第一唇形纠正库,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据每一音素对应的第一目标坐标集合和第二目标坐标集合,确定每一音素对应的唇形纠正函数,包括:

7.根据权利要求4-6任一项所述的方法,其特征在于,,所述根据每一音素对应的第一关键帧和第二关键帧,构建所述第一唇形纠正库,包括:

8.一种虚拟数字人的发音纠正装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序被处理器执行时,使得所述处理器实现如权利要求1-7中任一所述的方法。

技术总结本申请实施例公开了一种虚拟数字人的发音纠正方法、电子设备、装置及存储介质,该虚拟数字人的发音纠正方法可以包括:获取待播报内容的初始发音信息,初始发音信息包括初始语速信息和/或初始唇形信息;根据第一发音纠正库纠正初始发音信息,得到目标发音信息;根据目标发音信息,控制虚拟数字人播报待播报内容。通过实施该方法,能够使得虚拟数字人实现个性化的发音。技术研发人员:涂勇军,江秀,常晶受保护的技术使用者:OPPO广东移动通信有限公司技术研发日:技术公布日:2024/6/11

本文地址:https://www.jishuxx.com/zhuanli/20240618/24678.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。