一种语音转换方法及系统
- 国知局
- 2024-06-21 11:50:43
本发明涉及语音转换,特别是一种语音转换方法及系统。
背景技术:
1、vc(voice conversion,语音转换)旨在将已有音色转换为目标音色,是音色克隆的一部分,让语音能够与目标音色更加相似,更加拟真。近年来,随着声学模型和声码器技术的飞速发展,vc在语音助手,有声读物、口语对话系统和数字人等许多领域都发挥着重要作用。
2、在拥有大量高质量语音条件下,vc可以将其他音色语音转换为目标音色,几乎可以以假乱真,目前,vc受限于训练集,对已训练的说话者的音色进行克隆,但是,大量单个说话者的高质量语音较难获取,导致训练的难度大大增加。传统的语音转换方法在实现语音合成时常常面临困难,特别是在保留原始语音信号的情况下改变其音色。本发明提供了一种多模态语音转换系统及方法,通过采用先进的数据集采集和预处理方法,结合目标文本信息和特定音色的识别技术,实现了高效且高质量的语音转换。
技术实现思路
1、鉴于上述存在的问题,提出了本发明。
2、因此,本发明所要解决的问题在于:传统的语音转换方法在实现语音合成时常常面临困难,特别是在保留原始语音信号的情况下改变其音色。
3、为解决上述技术问题,本发明提供如下技术方案:一种语音转换方法,其包括,采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征;将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
4、作为本发明所述一种语音转换方法的一种优选方案,其中:所述语音数据集的采集条件包括,语音数据集中只能出现单个说话人语音;语音数据集中除目标人说话声音外不允许出现其他背景声音;语速与情绪音调需满足预设条件;语音数据集中需包含所需不同语种的音频;语音数据集的音频有效时长至少大于20min。
5、作为本发明所述一种语音转换方法的一种优选方案,其中:将采集到语音数据集载入评分模型中进行评分,评分模型表示为,
6、
7、其中,mfinal表示为最终生成音频质量,mtrue表示为真实音频的质量,maudio表示为录制数据集的质量,pn表示为数据集内所有有效音频的音素数量,t表示为数据集所有有效音频的时长,s表示为正常说话语速;基于评分模型对语音数据集进行评分,当mfinal满足预设阈值时则正常输出语音数据集,若不满足则将语音数据集打回,重新采集语音并评分,直至mfinal满足预设阈值结束流程。
8、作为本发明所述一种语音转换方法的一种优选方案,其中:所述预处理包括,使用频谱分析技术识别目标语音信号和背景噪音在频域上的差异,基于差异进行模型训练学习目标语音和噪音的特征,对有效的人声进行分离;在人声分离后,比较语音信号和估计的噪音谱,将估计的噪音从语音信号中减去,再将语音信号分解成不同频率的子带,通过对每个子带进行阈值处理来减少噪音。
9、作为本发明所述一种语音转换方法的一种优选方案,其中:所述基于目标音色进行模型训练包括,对语音数据集以每个单元词为单位进行拆分,基于音调为每个单元词赋予重读音、正常读音和轻读音标签,获取每种读音对应单元词的语义,对轻读音单元词的语义进行解耦获得有效语义和无效语义,将无效语义对应的单元词从语音数据集中剔除,收集相同语义下不同语种对应的重读音、正常读音和轻读音的语音频谱,以一种语义对应多种频谱为目标进行训练,得到语义与频谱的对应关系,具体公式表示为,
10、minθl(cnn(c(d(l(s)));θ),f(l有效,t(s)))
11、其中,minθl表示为最小损失函数,cnn表示为卷积神经网络,c表示为选择函数,d表示为解耦函数,l(s)表示为单元词s的语义,s表示为单元词,θ表示为模型参数,f(l有效,t(s))表示为与有效语义l有效和音调标签t(s)对应的频谱集合;解耦函数d(l(s))用于区分有效和无效语义,公式表示为,
12、
13、其中,σl(s)表示为相似性度量(l(s),l有效集),计算历史词句有效集l有效集与l(s)的相似度,τ表示为阈值根据实际工况设定;将通过解耦函数得到有效语音单元词代入选择函数c中,进行有效语音词与对应频谱的匹配,公式表示为,
14、c(l有效)={s→f|d(l(s))=l有效,s∈s}
15、其中,f表示为单元词s对应的不同语种的频谱,s表示为所有单元词的集合;将x=c(l有效)代入卷积神经网络cnn进行训练得到语义与频谱的对应关系,公式表示为,
16、z(x)=r(w*x+b)
17、其中,r表示为激活函数,w表示为卷积核的权重矩阵,*表示为卷积操作,b表示为卷积核的偏置项;将z(x)代入最大池化层进行输出表示为,
18、p(z)=maxp×p(z(x))
19、将p(z)代入全连接层并随机输出一个单元词得到预测频谱公式表示为,
20、
21、其中,p×p表示为池化窗口大小,wf表示为全连接层的权重矩阵,bf表示为偏置,flatten表示为表示将池化层的输出平铺成一个向量;最后将得到与f进行最小化损失,公式表示为,
22、
23、其中,n表示为总输入的单元词量;
24、根据输出的进行阈值判断,若满足条件则训练完毕输出模型,若不满足条件则调整模型参数θ再进行训练,直至满足条件输出,θ包括卷积核大小k×k和池化窗口大小p×p。
25、作为本发明所述一种语音转换方法的一种优选方案,其中:所述基于目标音色进行模型训练还包括,根据最终训练后的cnn得到了语义与频谱的对应关系,现随机输入若干段文本至模型中,对比目标音色的目标值与预期合成的预测值,调整语义对应频谱的权重,公式表示为,
26、
27、其中,h(p,q)表示为交叉熵损失函数,p表示为目标音色的目标值,q表示为预期合成的预测值,x表示为当前所用的特征参数;通过梯度下降法调整权重,使h(p,q)最小化,结束流程并输出模型即为声学模型。
28、作为本发明所述一种语音转换方法的一种优选方案,其中:所述声码器包括,通过声码器将频谱特征转化为语音波形。
29、本发明的另外一个目的是提供一种语音转换系统,此系统可将非目标音频进行转换,不改变其内容,转换为目标语音的音频
30、为解决上述技术问题,本发明提供如下技术方案:一种语音转换方法的系统,包括:数据采集模块、模型训练模块和语音转换模块;所述数据采集模块用于得到目标音色,采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;所述模型训练模块用于训练模型,基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;所述语音转换模块用于将文本文件转换为目标语音,当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征,将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
31、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述一种语音转换方法的步骤。
32、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述一种语音转换方法的步骤。
33、本发明有益效果为:本发明通过采用先进的数据集采集和预处理方法,结合目标文本信息和特定音色的识别技术,本发明能够更有效地模拟和再现目标音色,使得转换后的语音在音质和真实感上更加接近原始目标音色,大大提高了语音转换的质量和真实感。
34、传统的语音转换技术受限于数据集的质量和规模,尤其是在高质量单一说话者数据难以获得的情况下。本发明通过引入多模态技术和改进的模型训练方法,能够更好地适应不同的语音样本和说话者,拓宽了语音转换的适用范围。
35、结合目标文本信息和特定音色的识别技术,使得本发明不仅能够处理多样化的语音输入,还能够适应不同的应用场景,如语音助手、有声读物、口语对话系统和数字人等,提高了系统的灵活性和适应性。
36、在进行音色转换的同时,本发明能够更好地保留原始语音信号的特性,如语调、节奏和情感表达,从而在改变音色的同时保持语音的自然性和表现力。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23928.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。