一种基于深度学习模型的变调语音复原方法及系统
- 国知局
- 2024-06-21 11:31:00
本发明涉及语音合成,尤其涉及一种基于深度学习模型的变调语音复原方法及系统。
背景技术:
1、语音变调技术通过改变语音基音频率,例如升高或降低基音频率,从而达到保护说话人身份的功能,也可实现匿名通信或娱乐等功能。为了保持语音的自然度,在实施语音变调过程中常保持声音播放速度不变。与此同时,也可通过语音变调技术伪装身份,骗过人耳或声纹识别系统。
2、目前,变调语音复原技术有两类。一类技术需要有原始语音作为参照,从而估计出变调因子。再用相同的变调方法和估计出的变调因子实现变调复原。另一类是同时对语音变调因子和变调方法进行估计,进而利用估计出来的变调因子和变调方法进行复原。
3、这两类技术的缺陷在于对于变调因子或变调方法的估计准确性不足导致复原效果不佳,抑或需要提供原始语音作为参照。此外,这两类技术在语音复原的过程需要实施二次变调,导致复原的语音音质受损严重。
技术实现思路
1、本发明的目的在于解决现有技术中对于变调因子或变调方法的估计准确性不足导致复原效果不佳、或需要提供原始语音作为参照导致适用范围小的问题。
2、本发明解决其技术问题所采用的技术方案是:提供一种基于深度学习模型的变调语音复原方法,包括以下步骤:
3、获取包含原始语音和对应的变调语音的数据集,对数据集中的语音进行语音波形到梅尔谱的转换,获得训练样本。
4、构建变调语音复原模型,所述变调语音复原模型包括用于估计变调因子的估计模块和利用变调因子生成复原语音的复原模块;
5、利用训练样本训练变调语音复原模型,获得训练好的变调语音复原模型;
6、使用训练好的变调语音复原模型对输入的变调语音进行复原;
7、优选的,所述构建变调语音复原模型,估计模块的构建包括以下步骤:
8、构建由多个transformer编码器构成的特征编码器,每个transformer编码器包含多头注意力单元和全连接前馈单元,多头注意力单元和全连接前馈单元之间通过残差连接;
9、对应每个transformer编码器设置一个解码器,每个解码器由分类解码器和重建解码器构成;
10、利用训练样本对每个transformer编码器进行预训练,获得训练好的特征编码器;
11、训练好的特征编码器,输出的特征经过基于注意力机制的统计池化层和两层全连接网络后,获得变调因子估计值。
12、优选的,所述利用训练样本对每个transformer编码器进行预训练,获得估计模块,具体为:选择训练样本中的部分梅尔谱,分割成n个尺寸为16×16的子块,随机将其中m个子块用全0矩阵替代进行掩蔽,记为{x1,x2,...,xm}。然后将被掩蔽的子块与未被掩蔽的子块在通道维度进行拼接,送入特征编码器,特征编码器输出d个特征,其中被掩蔽子块的特征分别经过由全连接层构建的分类解码器和由卷积层构建的重构解码器以进行解码,分类解码器输出所属类别,重构解码器输出重建的特征;预训练过程中通过如下损失函数对每一个transformer编码器及对应的分类解码器和重构解码器进行优化:
13、
14、其中λ为超参数,ci为分类解码器的输出,ri为重构解码器的输出。
15、优选的,所述构建变调语音复原模型,所述复原模块包括:
16、生成器,由多个残差模块构成,用于获取复原语音的梅尔谱
17、多尺度判别器,用于判别原始梅尔谱xo和复原梅尔谱所述多尺度判别器包括三个分支,第一分支对梅尔谱进行低尺度判别;第二分支对梅尔谱进行中尺度判别;第三分组对梅尔谱进行高尺度判别;
18、神经声码器,将生成器生成的复原语音梅尔谱转换为复原语音波形信号
19、优选的,所述生成器获取复原语音的梅尔谱的步骤如下:
20、生成器共有l个残差块,其中,第一个残差块的输入为变调语音梅尔谱与变调因子分别经过1×1卷积处理后的逐元素和,第l个残差块的输入为第l-1个残差块输出的特征图;
21、之后,每个残差块对相应的输入作1×3的卷积处理后,分别进行两种不同的非线性变换,一种为sigmoid,另一种为tanh。将经过两种不同非线性变换得到的输出进行相乘后得到u;对u作1×1的卷积处理后,作为残差块的输出;同时u作1×1的卷积处理后的结果再与输入相加,作为下一个残差块的输入;
22、将l个残差块的输出u进行逐元素相加得到q;
23、对q做非线性处理和两次1×1的卷积处理,得到复原语音的梅尔谱图
24、优选的,多尺度判别器区分原始梅尔谱和复原梅尔谱的步骤如下:
25、复原梅尔谱图或原始梅尔谱图xo作为多尺度判别器的输入;
26、输入的梅尔谱图分别进入第一分支、第二分支和第三分支;
27、第一分支首先对梅尔谱图进行两次以步长为2的平均池化,池化后的结果再次进入卷积层,共进行k次以卷积核大小为1×1、步长为2的卷积操作,每次卷积操作之后采用relu函数对特征图进行激活,最后输出k个低尺度特征图
28、第二分支首先对梅尔谱图进行一次以步长为2的平均池化,池化后的结果再次进入卷积层,共进行k次以卷积核大小为1×1、步长为2的卷积操作,每次卷积操作之后采用relu函数对特征图进行激活,最后输出k个中尺度特征图
29、第三分支直接进行k次以卷积核大小为1×1、步长为2的卷积操作,每次卷积操作之后采用relu函数对特征图进行激活,最后输出k个高尺度特征图
30、最后对不同分支输出的最后一层特征图和进行阈值为0.5的二值化操作,判别结果由二值化后特征图中的元素表示,若特征图中的0元素更多则判别为复原梅尔谱,若其中的1元素更多则判别为真实梅尔谱。
31、优选的,所述利用训练样本训练变调语音复原模型,获得训练好的变调语音复原模型,步骤如下;
32、将训练样本输入变调语音复原模型;
33、计算第一阶段损失函数l1,第一阶段损失为估计模块的损失,通过训练样本中的真实变调因子α和估计出的计算得出
34、计算第二阶段损失函数l2,第二阶段损失为生成器和判别器的损失,包括对抗损失ladv(e,g,d)、梅尔谱图重建损失lspec(e,g)和特征匹配损失lfm(e,g,d),表示如下:
35、l2=ladv+lspec+λfmlfm
36、
37、lspec(e,g)=||xo-g(xs,e(xs))||2
38、
39、其中,λfm为超参数;e,g,d分别表示估计模块、生成器和判别器的函数;表示计算均值;xo为原始未变调语音梅尔谱,xs为对应的变调语音梅尔谱;n表示每个尺度特征的个数,表示第i个特征,分别表示低尺度、中尺度和高尺度;
40、计算第三阶段损失函数l3,第三阶段损失为神经网络声码器的波形复原损失其中wo为原始无变调语音波形信号,为复原语音波形信号;
41、使用以上三阶段损失函数计算总损失函数l=l1+l2+l3,通过最小化总损失函数更新估计模块与生成器的网络参数,通过最大化总损失函数更新判别器的网络参数,以获得训练好的变调语音复原模型。
42、本发明还提供一种基于深度学习模型的变调语音复原系统,包括:
43、样本构建模块,获取包含原始语音和对应的变调语音的数据集,对数据集中的语音进行语音波形到梅尔谱的转换,获得训练样本;
44、模型构建模块,构建变调语音复原模型,所述变调语音复原模型包括用于估计变调因子的估计模块和利用变调因子生成复原语音的复原模块;
45、训练模块,利用训练样本训练变调语音复原模型,获得训练好的变调语音复原模型;
46、复原模块,使用训练好的变调语音复原模型对输入的变调语音进行复原。
47、本发明具有如下有益效果:
48、1)发明中的估计模块实现了对任意变调语音的复原,包括无需原始语音做参考,无需变调算法等先验信息,且对语音的内容和说话人不做限制,增强了适用场景与实用性;
49、2)发明中的复原模块通过重建未经变调语音时频特征,不仅实现了语音音调的复原,还消除了变调算法引入的失真与噪声,极大增强了复原后语音的音频质量。
50、以下结合附图及实施例对本发明作进一步详细说明,但本发明不局限于实施例。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21988.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。