一种样本音频的采集方法、装置、存储介质及电子设备与流程
- 国知局
- 2024-06-21 11:38:22
本说明书涉及计算机,尤其涉及一种样本音频的采集方法、装置、存储介质及电子设备。
背景技术:
1、目前,随着语音合成技术日益成熟,个性化语音合成应用非常广泛,而其中定制音色是一个重要的功能。
2、在实际应用中,需要使用语音合成模型来实现将用户的音色修改为目标说话人的音色,而训练该语音合成模型则需要采集一定数量的目标说话人的音频,并以此为样本来训练语音合成模型,以使语音合成模型复刻出目标说话人的具体音色。
3、因此,如何稳定高效的采集样本音频成为一个亟待解决的问题。
技术实现思路
1、本说明书实施例提供一种样本音频的采集方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
2、本说明书实施例采用下述技术方案:
3、本说明书提供的一种样本音频的采集方法,预先存储若干文本语料,各文本语料分别对应于预设的主题,所述文本语料中包括问题以及与所述问题对应的参考回复,所述方法包括:
4、获取目标用户的属性;
5、根据所述目标用户的属性,从所述预设的主题中筛选目标主题;
6、获取与所述目标主题对应的文本语料,作为目标语料;
7、向所述目标用户展示所述目标语料中的问题以及参考回复;
8、采集所述目标用户根据展示的问题以及参考回复而输入的音频,作为样本音频,所述样本音频用于训练语音合成模型。
9、可选地,各主题分别对应于预设的说话场景;
10、根据所述目标用户的属性,从所述预设的主题中筛选目标主题,具体包括:
11、根据所述目标用户的属性,从各说话场景中筛选与所述目标用户匹配的目标场景;
12、根据所述目标用户的属性,从目标场景对应的各主题中,筛选与所述目标用于匹配的目标主题。
13、可选地,所述目标主题为多个;
14、获取与所述目标主题对应的文本语料,具体包括:
15、根据各目标主题对应的文本语料,确定各目标主题的音素覆盖度;
16、根据样本音频的音素覆盖度以及各目标主题的音素覆盖度,确定各目标主题的音素覆盖度增益;
17、获取音素覆盖度增益最高的目标主题对应的文本语料。
18、可选地,确定各目标主题的音素覆盖度增益,具体包括:
19、确定各目标主题所覆盖的音素相对于样本音频所覆盖的音素的差集;
20、根据所述差集中包含的音素,确定各目标主题的音素覆盖度增益。
21、可选地,向所述目标用户展示所述目标语料中的问题以及参考回复,具体包括:
22、以播放语音的形式向所述目标用户播放所述目标语料中的问题;
23、以显示文字的形式向所述目标用户展示所述目标语料中的参考回复。
24、可选地,采集所述目标用户根据展示的问题以及参考回复而输入的音频,具体包括:
25、当确定音频采集通道中存在输入的音频时,采集所述目标用户根据展示的问题以及参考回复而输入的音频;
26、响应于满足第一预设条件,停止采集音频。
27、可选地,采集所述目标用户根据展示的问题以及参考回复而输入的音频,作为样本音频之后,所述方法还包括:
28、对所述样本音频进行语音识别,得到与所述样本音频对应的样本文本;
29、基于所述样本文本,得到所述样本音频的音素覆盖度。
30、可选地,采集所述目标用户根据展示的问题以及参考回复而输入的音频,作为样本音频之后,所述方法还包括:
31、将所述样本音频添加到样本集中;
32、响应于所述样本集中的样本音频的音素覆盖度以及各目标主题的音素覆盖度不满足第二预设条件,重新获取文本语料。
33、本说明书提供的一种样本音频的采集装置,包括:
34、存储模块,用于存储若干文本语料,各文本语料分别对应于预设的主题,所述文本语料中包括问题以及与所述问题对应的参考回复;
35、属性获取模块,用于获取目标用户的属性;
36、匹配模块,用于根据所述目标用户的属性,从所述预设的主题中筛选目标主题;
37、语料获取模块,用于获取与所述目标主题对应的文本语料,作为目标语料;
38、播放模块,用于向所述目标用户展示所述目标语料中的问题以及参考回复;
39、采集模块,用于采集所述目标用户根据展示的问题以及参考回复而输入的音频,作为样本音频,所述样本音频用于训练语音合成模型。
40、本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的样本音频的采集方法。
41、本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的样本音频的采集方法。
42、本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
43、本说明书实施例根据目标用户的属性,从预设的主题中选取与该目标用户匹配的目标主题,并向其展示目标主题中的问题以及参考回复,使目标用户根据参考回复回答展示的问题,由此采集目标用户的音频作为样本音频,可更加稳定且高效的采集用于训练语音合成模型的样本音频。
技术特征:1.一种样本音频的采集方法,其特征在于,预先存储若干文本语料,各文本语料分别对应于预设的主题,所述文本语料中包括问题以及与所述问题对应的参考回复,所述方法包括:
2.如权利要求1所述的方法,其特征在于,各主题分别对应于预设的说话场景;
3.如权利要求1或2所述的方法,其特征在于,所述目标主题为多个;
4.如权利要求3所述的方法,其特征在于,确定各目标主题的音素覆盖度增益,具体包括:
5.如权利要求1所述的方法,其特征在于,向所述目标用户展示所述目标语料中的问题以及参考回复,具体包括:
6.如权利要求1所述的方法,其特征在于,采集所述目标用户根据展示的问题以及参考回复而输入的音频,具体包括:
7.如权利要求3所述的方法,其特征在于,所述方法还包括:
8.如权利要求3所述的方法,其特征在于,所述方法还包括:
9.一种样本音频的采集装置,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-8任一项所述的方法。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-8任一项所述的方法。
技术总结本说明书公开了一种样本音频的采集方法、装置、存储介质及电子设备,本说明书实施例根据目标用户的属性,从预设的主题中选取与该目标用户匹配的目标主题,并向其展示目标主题中的问题以及参考回复,使目标用户根据参考回复回答展示的问题,由此采集目标用户的音频作为样本音频,可更加稳定且高效的采集用于训练语音合成模型的样本音频。技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名受保护的技术使用者:摩尔线程智能科技(北京)有限责任公司技术研发日:技术公布日:2024/3/24本文地址:https://www.jishuxx.com/zhuanli/20240618/22591.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表