基于二次重构的多语言音色转换方法
- 国知局
- 2024-06-21 10:39:39
本发明涉及语音处理,更进一步涉及音色转换中的一种基于二次重构的多语言音色转换方法。本发明可用于在多语言多音色的音色转换领域中将任意人音色转换成几种目标音色。
背景技术:
1、音色转换是一种音频处理技术,旨在将一个音频信号的音色(声音质地或音调特征)转换成另一个音色,同时保留原始声音的其他方面,如语速、节奏和语调。传统的音色转换方法通常依赖于平行数据和手工制定的规则或特征工程,限制了其应用范围和效果。随着深度学习技术的崛起,特别是卷积神经网络(cnn)和循环神经网络(rnn)的发展,研究人员开始探索如何利用深度学习来进行音色转换。深度学习模型可以自动学习输入和输出之间的复杂映射关系,因此被认为是一种有潜力的方法。而自监督学习是深度学习的一个重要分支,它的关键思想是利用数据自身的信息来进行监督学习,而不依赖于外部标签。在音色转换中,自监督学习可以利用音频数据自身的特征来训练模型,这降低了数据收集和标记的成本,同时使得合成的音频更加自然饱满。
2、benjamin van niekerk,marc-andre carbonneau在其发表的论文“a comparisonof discrete and soft speech units for improved voice conversion”(international conference on acoustics,speech and signal processing,2022)中提出了一种可以将任意人的音色转换成一种目标音色的音色转换方法。该方法采用自监督的学习方式训练模型,模型分为音频特征抽取,声学模型和声码器三部分。音频特征提取讲源说话人的语音编码成低微潜在表示,声学模型将该潜在表示编码重构为目标说话人音色的梅尔频谱图,而声码器将梅尔频谱图生成音频。但是,该方法仍然存在两点不足之处,其一,自编码器自监督的的训练方式在训练时只需要基于目标说话人的音频训练模型,而在预测时是将待预测人的音色转换成目标说话人的音色,由于训练过程与预测的过程输入的不同。模型训练效果好不一定保证预测时也能很好的进行音色转换。其二,自监督训练方式在某些方面存在过拟合的现象,自监督的训练方式使得模型能够很好的学到如何生成目标音色的音频同时也很好的拟合了目标说话人的讲话方式。因为不同语种讲话的方式不同,模型如果过于拟合某种语言的讲话特点,在不同语种之间进行音色转换就可能存在口音的问题。
3、山东大学在其申请的专利文献“语音转换方法、装置、存储介质及电子设备”(申请号:202310349539.7,申请公布号:cn 116416964 a)中提出了一种利用标签层次信息的多媒体数据跨模态信息检索方法。该方法具体步骤如下:
4、通过韵律编码模型提取所述待转换语音信号的韵律特征,自监督语音识别模型;提取所述待转换语音信号的第一音高特征和文本特征;根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号,所述目标音色为所述目标发音对象的音色。该方法的不足之处是,基于语音识别模型抽取文本特征往往收到模型识别能力的影响,当语音识别模型识别错字率比较高时最终生成的音频会出现吐字模糊甚至错音的现象。
5、综上所述,基于自监督训练的学习方法借助于语音识别模型抽取特征时会受限于识别模型的识别准确率,在训练的整个过程中存在训练过程和预测过程不符的现象,同时自监督的训练方式使得模型过于拟合目标人的说话方式,在不同语种进行音色转换会出现口音的问题。
技术实现思路
1、本发明的目的在于针对上述现有技术的不足,提供一种基于二次重构的多语言音色转换方法,用于解决自监督训练的学习方法借助于语音识别模型,在模型训练的整个过程中存在训练过程和预测过程不符的现象,同时自监督的训练方式使得模型过于拟合目标人的说话方式,在不同语种进行音色转换会出现口音的问题。
2、本发明的技术思路是:本发明修改语音识别模型的训练任务,预训练新的语音识别模型。语音识别任务是将音频识别出文本,因此通常借助于语音识别模型抽取音频的文本特征。而对于音色转换任务来说,需要的语义信息只需要表示出音频有哪些发音构成即可,并不需要精确到有哪些文本构成,音素信息就表示音频有哪些发音构成。因此将语音识别模型的训练方式从音频识别出文本变成从音频识别出音素。音素和文本存在一对多的关系,识别出音素的训练方式降低了模型识别时的搜索空间,也就降低了识别的难度,从而提高语音识别模型的识别准确率,也就提升了音色转换的发音准确性。本发明改变自监督学习方式的训练过程,将整个训练过程变成分为生成和还原两步,训练数据有不同音色不同语种的音频构成,第一步的生成是将某一音频接受别人的音色信息区生成别人音色的音频,第二步再将已经生成别人音色信息的音频接受自己的音色信息还原成自己的原始音频,两步的过程都是而不是简单的由自己生成自己的过程。并且在第一步的过程中添加额外的损失函数从音色特征和语义特征限制第一步生成的音频,
3、根据上述技术思路,本发明采取的技术方案包括如下:
4、步骤1,构建由音色提取模块,文本预处理模块,梅尔频谱图生成模块依次串联组成的音色转换学习网络;
5、步骤2,建立训练集:
6、收集中文和英文至少2000个小时的音频数据和对应的文本;将音频转换成梅尔频谱图,将对应的文本换成音素;将梅尔频谱图和对应的文本构成用于训练语音识别模型的训练集;
7、将标贝开源的中文标准女声语音数据和英文开源数据hifi-tts作为目标人音色音频数据构成训练音色转换网络和声码器的训练集;
8、步骤3,训练语音识别模型:
9、将用于训练语音识别模型的训练集输入到基于开源模型wenet中,将语音识别的文字词典变成音素的词典训练出能够将音频识别出音素的语音识别模型;
10、步骤4,训练音色转换学习网络:
11、从目标人音色的音频训练集中随机选取16个音频数据输入到音色转换网络中,经过两次重构梅尔频谱图,使用adam优化算法,迭代更新音色转换学习网络的网络参数,直至音色转换网络的总损失函数收敛为止,得到训练好的音色转换学习网络;
12、步骤5,训练声码器:
13、将目标人音色的音频训练集输入到基于开源模型hifigan中训练,声码器将音色转换学习网络生成的梅尔频谱图合成音频;
14、步骤6,音色转换预测:
15、将待预测的音色转换输入到训练好的音色转换学习网络中,经网络的语音识别模型输出该音频的文本特征;网络的音色提取模块输出目标说话人的音色特征;将原音频的文本特征和目标说话人的音色特征输入到音色转换学习网络中生成新的梅尔频谱图,将梅尔频谱图输入到目标音色的声码器中生成音频。
16、本发明与现有技术相比,具有如下优点:
17、第一,本发明重新预训练了语音识别模型,并改变了语音识别模型的训练方式将音频识别出文本替换成识别成音素,在不影响音色转换任务的同时,提升了语音识别的准确率,对提取的文本特征更加精确,保证了音色转换后发音的准确性。
18、第二,本发明改变了自监督的训练方式,音频两次重构使原来的自监督训练不仅仅是简单让音频自己生成自己的过程,两次重构过程都是梅尔频谱图接受不同的音色信息生成新的梅尔频谱图,因此两部分的过程都相当于是预测的过程。模型不再是单纯的拟合目标音频的数据,当训练数据含有不同语种的数据时,生成的过程不仅仅是进行了音色转换,在训练的过程中就已经实现了不同语种之间的音色转换。数据在训练过程中模型能够感知到不同语言之间的说话的差异性,并且能够在转换的过程中减缓这种语言差异性带来的影响,减弱了不同语种之间进行音色转换的存在的口音问题。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21024.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
一种语音识别方法及系统
下一篇
返回列表