一种数字人播报风格控制方法及装置与流程
- 国知局
- 2024-06-21 11:28:00
本申请属于视频处理,特别涉及一种数字人播报风格控制方法及装置。
背景技术:
1、数字人aigc的视频技术正逐步开始应用在电商、广告、新闻播报、培训、教育等众多行业。当前数字人aigc技术发展方向为使数字人不断向真人逼近,这主要体现在两方面,一个是姿态控制,另一个是语音控制。
2、在语音控制方面,通常需要采集较多的音频数据以构建音频库,但仍不能满足日益增多的数字人模型的需求,较多数字人模型在语音处理上仍具有相似性,影响了用户体验。
技术实现思路
1、为了解决上述技术问题至少之一,本申请提供了一种数字人播报风格控制方法及装置,用于基于数字人播报风格进行语音控制输出。
2、本申请的第一个方面,一种数字人播报风格控制方法,主要包括:
3、基于待播报内容确定由所述数字人进行播报的节目类型;
4、选择与所述节目类型相匹配的播报风格,所述播报风格用于表征不同节目类型的播报语调;
5、从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型;
6、获取所选择的数字人模型的语速设定值及停顿设定值;
7、根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频;
8、将分词音频进行语音合成。
9、优选的是,从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型包括:
10、确定待播报内容对应的节目是否具有指定数字人模型,如果存在指定数字人模型,则直接选择该指定数字人模型,如果不存在指定数字人模型,则从与所述播报风格关联的多个数字人模型中随机选择一个数字人模型。
11、优选的是,所述选择待播报内容的各分词音频之前进一步包括构建音频库,所述构建音频库包括:
12、对用于构建音频库的原始文本进行分词和词性标注;
13、通过语音采集设备采集声音,切割出各分词的音频;
14、根据不同原始文本对应的播报风格概率,将该播报风格概率赋值给该原始文本中的各个分词音频,构建各分词音频的播报风格向量;
15、对同一个分词的各个音频分别进行语速的快慢调整,扩充分词的音频数量。
16、优选的是,所述选择待播报内容的各分词音频包括:
17、步骤s511、根据分词的文本内容确定对应的音频集合;
18、步骤s512、在所述音频集合中,对每个待选音频,根据其属性值计算其与具有设定语速设定值、停顿设定值以及播报风格的数字人模型的匹配度;
19、步骤s513、选择匹配度最小的音频作为该分词的输出音频。
20、优选的是,计算匹配度y包括:
21、
22、其中,a为待选音频的词性,a1为目标待播报节目文本中的分词词性,b为待选音频的语速,b1为所选数字人模型的语速设定值,b2为所选数字人模型的停顿设定值,ci为待选音频的播报风格向量中的各个值,di为所选数字人模型的播报风格向量中的各个值。x1、x2、x3分别为词性、语速、播报风格权重,n为播报风格数量。
23、本申请第二方面,一种数字人播报风格控制装置,主要包括:
24、节目类型确定模块,用于基于待播报内容确定由所述数字人进行播报的节目类型;
25、播报风格确定模块,用于选择与所述节目类型相匹配的播报风格,所述播报风格用于表征不同节目类型的播报语调;
26、数字人模型选择模块,用于从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型;
27、数字人模型属性确定模块,用于获取所选择的数字人模型的语速设定值及停顿设定值;
28、分词音频选取模块,用于根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频;
29、音频合成模块,用于将分词音频进行语音合成。
30、优选的是,所述数字人模型选择模块包括:
31、指定数字人模型查询模块,用于确定待播报内容对应的节目是否具有指定数字人模型,如果存在指定数字人模型,则直接选择该指定数字人模型,如果不存在指定数字人模型,则从与所述播报风格关联的多个数字人模型中随机选择一个数字人模型。
32、优选的是,所述数字人播报风格控制装置还包括音频库构建模块,所述音频库构建模块包括:
33、分词单元,用于对用于构建音频库的原始文本进行分词和词性标注;
34、音频切割单元,用于通过语音采集设备采集声音,切割出各分词的音频;
35、播报风格向量赋值单元,用于根据不同原始文本对应的播报风格概率,将该播报风格概率赋值给该原始文本中的各个分词音频,构建各分词音频的播报风格向量;
36、音频数量扩充单元,用于对同一个分词的各个音频分别进行语速的快慢调整,扩充分词的音频数量。
37、优选的是,所述分词音频选取模块包括:
38、音频集合确定单元,用于根据分词的文本内容确定对应的音频集合;
39、匹配度计算单元,用于在所述音频集合中,对每个待选音频,根据其属性值计算其与具有设定语速设定值、停顿设定值以及播报风格的数字人模型的匹配度;
40、音频选择单元,用于选择匹配度最小的音频作为该分词的输出音频。
41、优选的是,在所述匹配度计算单元中,计算匹配度y包括:
42、
43、其中,a为待选音频的词性,a1为目标待播报节目文本中的分词词性,b为待选音频的语速,b1为所选数字人模型的语速设定值,b2为所选数字人模型的停顿设定值,ci为待选音频的播报风格向量中的各个值,di为所选数字人模型的播报风格向量中的各个值。x1、x2、x3分别为词性、语速及播报风格权重,n为播报风格数量。
44、本申请的第三方面,一种计算机系统,包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序用于实现如上的数字人播报风格控制方法。
45、本申请的第四方面,一种可读存储介质,可读存储介质存储有计算机程序,计算机程序被处理器执行时用于实现上述的数字人播报风格控制方法。
46、本申请能够控制不同的数字人模型,以不同的语音进行播报,可以使模型发音更符合节目场景,提高了用户体验。
技术特征:1.一种数字人播报风格控制方法,其特征在于,包括:
2.如权利要求1所述的数字人播报风格控制方法,其特征在于,从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型包括:
3.如权利要求1所述的数字人播报风格控制方法,其特征在于,所述选择待播报内容的各分词音频之前进一步包括构建音频库,所述构建音频库包括:
4.如权利要求3所述的数字人播报风格控制方法,其特征在于,所述选择待播报内容的各分词音频包括:
5.如权利要求4所述的数字人播报风格控制方法,其特征在于,计算匹配度y包括:
6.一种数字人播报风格控制装置,其特征在于,包括:
7.如权利要求6所述的数字人播报风格控制装置,其特征在于,所述数字人模型选择模块包括:
8.如权利要求6所述的数字人播报风格控制装置,其特征在于,所述数字人播报风格控制装置还包括音频库构建模块,所述音频库构建模块包括:
9.如权利要求8所述的数字人播报风格控制装置,其特征在于,所述分词音频选取模块包括:
10.如权利要求9所述的数字人播报风格控制装置,其特征在于,在所述匹配度计算单元中,计算匹配度y包括:
技术总结本申请提供了一种数字人播报风格控制方法及装置,该方法包括基于待播报内容确定由所述数字人进行播报的节目类型;选择与所述节目类型相匹配的播报风格,所述播报风格用于表征不同节目类型的播报语调;从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型;获取所选择的数字人模型的语速设定值及停顿设定值;根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频;将分词音频进行语音合成。本申请可以使模型发音更符合节目场景,提高了用户体验。技术研发人员:王鹤,宋子强,何俊华,林洪祥受保护的技术使用者:北京风平智能科技有限公司技术研发日:技术公布日:2024/2/19本文地址:https://www.jishuxx.com/zhuanli/20240618/21673.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。