一种噪声鲁棒的个性化语音合成方法及装置
- 国知局
- 2024-06-21 11:58:25
本发明涉及语音合成,具体涉及一种噪声鲁棒的个性化语音合成方法及装置。
背景技术:
1、语音合成(text to speech,tts)技术已经广泛地应用到了语音助手、智能导航、电子书等产品中。然而,传统的语音合成模型需要从一个或多个说话人那里获得大量的高质量语音数据,并附有文本注释,且仅限于合成训练数据集中说话人的语音。不论是单说话人还是多说话人语音合成系统,都需要每位说话人大量的高质量数据。为了定制任何说话人的语音合成系统,必须获得该说话人大量的高质量、带有文本注释的语音数据,这通常在现实世界应用中成本高昂且不切实际。个性化语音合成是一种特殊形式的语音合成,其技术框架如图1所示,它利用有限且可能质量较低的语音数据产生目标说话人的自然语音。
2、目前的个性化语音合成技术主要面临以下两个难题:(1)通常只能获得目标说话人少量的语音数据,需要使用有限的可用数据进行定制个性化语音合成系统;(2)用户往往无法在录音棚等安静环境中使用专业录音设备录音,语音数据通常含有噪声。因此,用于个性化语音合成场景下的语音数据通常数量少、质量低,这使得个性化语音合成更具挑战性。当前大多数个性化语音克隆技术依赖于目标说话人的高质量语音数据,这使得该技术的成本仍较高,实现噪声鲁棒的个性化语音合成能有效拓展该技术的应用场景,促进该技术的实际落地。
3、对于噪声鲁棒语音合成任务,已有的一些方法通过数据增强和对抗性分解来学习多说话人语音合成模型中说话人身份和背景噪声的不同表征,从而解耦相关的说话人和噪声属性,这有助于合成清晰语音;另一些方案通过噪声提取模块获得噪声表征,并将其作为声学模型的条件输入,以实现噪声鲁棒性。然而,通过显式建模噪声的方式很难对各种类型不同的噪声实现有效建模,导致对集外噪声的鲁棒性较差,同时这种方式还存在语音信息泄露,降低模型的泛化性能。
4、目前,个性化语音合成主要遵循两种技术方法:说话人适应(speakeradapatation)和说话人嵌入(speaker embedding)。基于说话人适应的个性化语音合成通过对目标说话人有限数据的微调预训练的多说话人语音合成模型,使模型能够适应目标说话人的声音特征。基于说话人嵌入的个性化语音合成涉及使用说话人编码器从目标说话人的参考语音中提取说话人嵌入,然后将这些嵌入连同文本的中间表征一起输入到多说话人语音合成系统的解码器中,以生成符合目标说话人声音的语音。虽然基于说话人嵌入的方法能够实现零样本合成,但其语音质量和相似性通常不如基于说话人适应的方法,特别是在参考音频存在噪声时,其合成结果往往不佳。有的不同于传统个性化语音合成的技术方法,基于大型语言模型(large language model,llm)对目标说话人的声音进行了有效的克隆,但这种方法需要大量的语料库数据和显著的计算资源;此外,当目标说话人的参考语音包含背景噪声时,合成的语音会保留这种噪声。
5、对于噪声鲁棒个性化语音合成任务,一种直接方法是在语音克隆之前使用语音增强模型去除带噪音频中的噪声,进而使用现有的个性化语音合成方法进行音色克隆。然而,这可能会在去噪音频中引入失真,降低合成语音的质量。通过域对抗训练从语音中提取内容和音色信息,将来自噪声和干净音频中的语音信息映射到同一个域空间中,可以得到噪声无关的中间表征,然而,这种方法本质上是在与噪声无关的域空间中对噪声语音进行去噪,类似于使用语音增强获取干净语音进行语音克隆。由于与语音增强模型相比噪声和训练数据的种类和数量有限,这种方法对分布外噪声的鲁棒性较弱,存在泛化性能差的问题。此外,依赖于成对干净/噪声语音的预训练步骤与仅使用未配对噪声语音的适应步骤之间的不匹配可能导致域漂移。还有的方法使用自监督学习框架进行个性化语音合成,基于说话人嵌入,采用数据增强来获得能够提取噪声鲁棒说话人嵌入的预训练模型,然后,这些嵌入被用作声学条件来训练专门用于语音克隆的语音合成系统,然而,与大多数依赖说话人嵌入的个性化语音合成方法一样,这种技术面临着对未见过的说话人泛化能力不够的挑战。
6、综上,现有基于语音增强的噪声鲁棒个性化语音合成技术中,由于降噪语音存在失真,合成语音质量和相似度会明显下降;其次,基于噪声级别操作的模型(基于噪声建模、噪声无关空间等工作)中,由于噪声的多样性,这种方法难以覆盖真实场景中各种类型的噪声,导致这类方法对域外噪声的鲁棒性会很差。同时,这类方法会造成语音信息泄漏或丢失,导致模型泛化性能下降。
技术实现思路
1、鉴于此,本发明提出了基于说话人无关瓶颈特征的噪声鲁棒个性化语音合成方案,以解决现有的噪声鲁棒个性化语音合成技术存在的上述问题。
2、根据本发明的其中一方面,提出一种噪声鲁棒的个性化语音合成方法,包括:(一)、解耦训练阶段,包括如下步骤:采用无文本标注的多说话人语音数据作为训练数据,首先将语音数据对应的梅尔频谱输入mel2bn模块,将音色信息解耦出去,保留除音色信息以外的其他信息,得到说话人无关瓶颈特征;然后将所述说话人无关瓶颈特征和说话人身份标签一同输入bn2mel模块,建模说话人音色从而复原出相应的梅尔频谱;(二)、语音合成阶段,包括如下步骤:利用经所述解耦训练阶段训练的mel2bn模块将高质量带文本标注的语音数据转换为文本-高质量瓶颈特征数据,用来训练text2bn模块;将经所述解耦训练阶段训练的bn2mel模块串联于经训练的text2bn模块的输出端;进行目标说话人语音合成时,先利用目标说话人身份标签微调bn2mel模块,同时冻结其他模块的参数,使bn2mel模块建模目标说话人的音色信息;再将目标文本输入经训练的text2bn模块,得到目标瓶颈特征,通过微调后的bn2mel模块将所述目标瓶颈特征转换为包含目标说话人音色信息的目标梅尔频谱,实现目标说话人语音合成;其中,mel2bn模块是梅尔频谱-瓶颈特征转换模块,bn2mel模块是瓶颈特征-梅尔频谱转换模块,text2bn模块是文本-瓶颈特征转换模块。
3、进一步地,在解耦训练阶段,采用基于域对抗训练、随机循环损失以及说话人一致性损失的音色解耦方法,将音色解耦出去,同时保留包含噪声信息在内的其他信息。
4、更进一步地,所述基于域对抗训练、随机循环损失以及说话人一致性损失的音色解耦方法,包括:通过域对抗训练,将不同说话人的语音数据映射到相同的域空间中,获得所述说话人无关瓶颈特征;在解耦训练过程中引入循环轮次,并在循环轮次中,引入随机循环损失确保语音数据在转换成对应梅尔频谱并通过mel2bn模块编码后,能重建其原始的瓶颈特征;在bn2mel模块解码时,实施随机因素替换来打乱说话人身份标签,解码具有转换音色的音频;以及,引入说话人一致性损失,以辅助bn2mel模块在实施转换的过程中保持目标说话人的身份特征。
5、更进一步地,所述域对抗训练包括:引入域对抗训练模块,包括第一说话人分类器,该第一说话人分类器通过一梯度反转层连接至mel2bn模块;在域对抗训练中,通过所述第一说话人分类器根据mel2bn模块输出瓶颈特征来分类说话人;当梯度反向传播时,梯度反转迫使解耦训练模型以一种使瓶颈特征更难分类的方向更新,进行对抗训练,通过这种对抗训练,不同说话人的语音数据能映射到相同的域空间中,从而实现与说话人无关的瓶颈特征。
6、更进一步地,所述说话人一致性损失通过预训练的第二说话人分类器来引入,所述第二说话人分类器在循环轮次中以bn2mel模块解码输出的梅尔频谱为输入。
7、更进一步地,所述解耦训练阶段的总损失函数为:
8、ltotal=lrecon+λcyclcyc+λadvladv+λsclsc
9、其中,lrecon表示梅尔频谱重建损失,lcyc表示所述随机循环损失,ladv表示域对抗损失,lsc表示所述说话人一致性损失,λcyc、λadv、λsc是超参数。
10、更进一步地,所述梅尔频谱重建损失和所述随机循环损失使用均方误差,所述域对抗损失和所述说话人一致性损失使用交叉熵损失,如下:
11、
12、
13、其中,x表示真实的梅尔频谱,表示经bn2mel模块重建得到的梅尔频谱;bi表示说话人i的语音梅尔频谱经mel2bn模块后得到的瓶颈特征;表示bi通过随机因素替换说话人身份标签,使用说话人j的说话人身份标签与bi一同输入bn2mel模块得到转换音色的梅尔频谱后,再经过mel2bn模块得到的瓶颈特征;
14、ladv和lsc使用多分类任务的交叉熵损失,即:
15、
16、其中,yk和pk分别对应输入数据属于第k个类别的真实标记和说话人分类器预测的概率,c表示说话人类别个数。
17、更进一步地,所述解耦训练阶段还包括动态噪声增强,所述动态噪声增强包括:在解耦训练过程中,以预定概率向用于训练的语音数据中添加经过随机裁剪和调整到随机采样的信噪比的噪声。
18、更进一步地,在所述语音合成阶段,将目标文本输入经训练的text2bn模块,得到目标瓶颈特征,包括:
19、通过字符转音素前端将输入的目标文本转换成对应的音素序列;
20、将所述音素序列经过嵌入向量层得到音素嵌入,所述音素嵌入经过n层前向transformer块得到音素中间表征,同时通过时长预测器来预测每个音素中间表征的持续帧长,并将相应的音素中间表征复制到所预测的帧长;经过长度调整后的中间表征再经过位置编码输入给n层transformer块,得到与输入的文本序列对应的干净瓶颈特征。
21、根据本发明的另一方面,还提出一种噪声鲁棒的个性化语音合成装置,包括解耦训练模型和语音合成模型;所述解耦训练模型包括mel2bn模块以及串联于mel2bn模块输出端的bn2mel模块;其中,mel2bn模块用于从训练数据对应的梅尔频谱中将音色信息解耦出去,保留除音色信息以外的其他信息,得到说话人无关瓶颈特征;bn2mel模块用于以所述说话人无关瓶颈特征和说话人身份标签为输入,建模说话人音色从而复原出相应的梅尔频谱;其中,所述训练数据是无文本标注的多说话人语音数据;所述语音合成模型包括text2bn模块以及经所述解耦训练模型训练好的bn2mel模块,所述训练好的bn2mel模块串联于text2bn模块的输出端;其中,text2bn模块用于将目标文本转换为目标瓶颈特征;所述训练好的bn2mel模块经目标说话人身份标签微调后用于将所述目标瓶颈特征转换为包含目标说话人音色信息的目标梅尔频谱,实现目标说话人语音合成;其中,mel2bn模块是梅尔频谱-瓶颈特征转换模块,bn2mel模块是瓶颈特征-梅尔频谱转换模块,text2bn模块是文本-瓶颈特征转换模块。
22、与现有技术相比,本发明技术方案的有益效果体现在:在解耦训练阶段,mel2bn模块和bn2mel模块一起使用大量无文本标注的多说话人语音数据来训练,以使得mel2bn模块具备充分的音色解耦能力,同时使得bn2mel模块能够根据不含音色信息的瓶颈特征和含有音色信息的目标说话人身份标签,重建出包含目标说话人音色信息的梅尔频谱,进而合成目标说话人语音,实现个性化语音合成。在进行个性化语音合成时,用户首先录制几句语音(有无噪声皆可),系统为新用户指定一个新的说话人id,对bn2mel模块进行微调,由于bn2mel模块经解耦训练阶段已经获得建模不同说话人音色的能力,因此通过这种微调,就能使bn2mel模块建模目标说话人的音色,同时bn2mel模块接收目标文本的干净瓶颈特征作为输入,便可输出对应目标文本的、包含目标说话人音色信息的干净梅尔频谱,最后通过声码器得到干净的目标说话人语音,实现对目标文本的个性化语音合成。由于本发明中text2bn模块使用的是高质量数据训练,可以得到不含噪声信息的干净瓶颈特征,而bn2mel模块是用来建模说话人音色信息,因此即便目标说话人的语音数据含有噪声,也依然能够合成出干净不带噪声的目标说话人语音。可见,本发明具备如下优势:
23、1)接受来自用户在有噪声环境下录制的语音片段进行定制化个性化语音合成,适配用户声音后,用户给定一段文本作为输入,本发明即可返回文本序列对应的该用户声音的高质量合成语音。无需提前利用目标说话人的大量语音数据来进行训练,只需要提供目标说话人的一段无质量要求的语音,根据该语音及对应的身份标签对训练好的bn2mel模块进行微调,即可重建高质量的合成语音。建立了一种噪声鲁棒的个性化语音合成系统,使得低成本进行个性化语音合成成为可能,拓展了个性化语音合成的应用场景,能对目标说话人提供的各种不同录音环境下录制的语音进行语音克隆,包括但不局限于安静、多种噪声和单一噪声等环境;
24、2)本发明虽然是为了提升个性化语音合成模型的噪声鲁棒性,但是并不关注于噪声本身,不直接在噪声级别进行操作,而是另辟蹊径去对服从某特定分布的说话人音色进行操作,避免了对域外噪声鲁棒性不足的问题;
25、3)本发明音色解耦训练阶段不依赖人工创建的干净/带噪配对数据和文本标注,允许使用现实中大量存在的无文本标注带噪语音数据集进行训练,提高了解耦能力以及泛化能力;
26、4)单一噪声环境下的个性化语音合成,由于噪声与目标说话人语音高度耦合,克隆难度大。而本发明采用一种动态噪声增强方法平坦化与说话人相关的噪声分布,提升了在单一噪声环境下的鲁棒性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24811.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表