基于语言及扩散模型的少监督语音合成方法
- 国知局
- 2024-06-21 11:49:43
本发明属于语音合成,具体涉及一种基于语言及扩散模型的少监督语音合成方法。
背景技术:
1、语音合成是智能语音交互的核心技术之一。通过将接收到的文字序列转换为自然逼真的语音波形,反馈传递给用户。因此语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科,是信息处理领域不可或缺的一门关键技术。随着硬件算力的不断提高和机器学习技术的研究不断深入,语音合成技术逐渐从最初的基于语言学规则的参数语音合成,发展成基于大语料库拼接合成和基于统计参数的语音合成,合成语音的各方面听感都有了明显的提升。
2、至今为止主流的语音合成方法为基于波形拼接的合成方法、基于统计声学建模的合成方法还有端到端的合成方法。在统计参数语音合成中,端到端的语音合成方法由于其结构相对简单,需要更少的专家知识,以及独立于语言等特点,成为当前的热点研究内容。在很多领域都取得了成功的应用,例如公共场合(医院、银行)的语音播报系统、有声读物(电子小说、电子讲解系统等)、地图导航、信息查询系统(自动问答)等。另外,随着便携式智能终端的迅速普及,语音合成技术也逐渐向智能语音机器人、智慧家庭、语音教学等领域渗透。随着语音合成技术的发展,越来越多的现实场景将应用这一技术。
3、图1为语音合成系统的整体框架。根据功能划分,语音合成可以分为前端文本分析和后端波形合成两大部分:前端部分为输入的文本提供文本分析功能,后端部分将文本分析的结果进行波形合成。
4、图2为前端文本分析流程,其中字音转换为在分词的基础上输出文本的拼音或音素标注,通常采用基于规则的字典映射方法。而在字音转换的过程中存在多音字辨识问题,有些多音字比如“朝阳(chao2yang2)”、“朝阳(zhao1yang2)”就很难通过发音词典的方法辨别。而字音转换结果对于合成系统的发音有着极大的影响,所以多音字消歧也是语音合成方向的热点研究问题,通常采用深度学习的方法,比如长短时记忆网络,与自然语言处理中词性标注任务的词性消歧较为类似。
5、无论是传统的统计参数语音合成方法还是目前的端到端语音合成都并非真正意义上的端到端。传统的统计参数语音合成方法需要通过输入的音素、拼音或字母序列根据时长预测模型输出每一个音素、拼音或字母的持续时长。再将序列展开成长度与输出一致的扩展序列。之后通过声学模型来预测出音频特征。音频特征再通过声码器来合成语音波形。而目前的端到端语音合成实际上可以看作一个两端模型,前端模型也就是声学模型,输入音素、拼音或字母序列,不需要时长模型而是通过声学模型的注意力机制学习到时长信息,进而直接预测出音频特征。而后端模型也就是声码器模型,音频特征通过声码器模型合成语音波形。目前存在很多的主流端到端语音合成前端模型,比如tacotron1、tacotron2、deep voive1、deep voive2、char2wav、fastspeech1和fastspeeh2等。
6、随着深度学习的发展,语音合成技术也取得了长足的进步。传统的语音合成方法已经取得了令人满意的效果。gpt等技术的出现增加了人们对大规模tts系统的兴趣。这些tts系统大致可分为两类:1)自回归框架;2)非自回归框架。传统的语音合成方法通常使用旋律谱图作为中间表示。然而,最近在语音神经编解码器方面取得的进展促使tts方法将音频波形转换为离散编码作为中间表示。著名的例子包括vall-e,它是第一个基于语言模型的大规模tts框架,具有上下文学习能力,可用于零镜头语音合成。然而,离散声学编码依赖神经编解码器进行语音波形重建,与传统音频特征相比,在高频细粒度声学细节方面存在信息损失。此外,自回归框架还存在典型的不稳定性和不可控性问题。naturalspeech2是一种基于潜在扩散模型的非自回归tts框架。然而,非自回归框架所需的时长预测模型会导致表达平均化问题。spear-tts是另一个例子,它将tts任务分为两个任务(文本到语义和语义到语音),以实现最小监督训练。语义编码的信息内容有望成为文本和声音信息之间的"桥梁"。语义编码应强调语言内容,而不强调副语言信息,如说话人身份和声音细节。然而,现有模型存在离散语音表征的高频波形失真、传统transformer声码器结构导致音质降低,传统promptencoder结构难以捕获音色、风格等副语言信息。此外,自回归框架还存在不稳定性和不可控性等典型问题。以语义编码编码为中间表征的语音合成方法,存在累积误差及语义编码预测困难的问题。
7、目前现有已公开的少监督语音合成技术方案主要是通过离散语音编码作为声学模型和声码器模型的中间表征。代表方案spear-tts使用自回归结构预测目标离散语音编码,然后通过声码器sound stream将离散语音编码还原为语音波形。
8、现有的技术方案的缺点主要如下:虽离散化表示可以将连续信号回归问题转化为分类问题,但是离散化表示会引入新的问题,高频损失导致语音编解码器还原波形高频失真。传统transformer声码器结构导致音质降低。传统prompt encoder结构难以捕获音色、风格等副语言信息。
9、自回归框架还存在不稳定性和不可控性等典型问题、传统的非自回归框架存在韵律平均问题、语义编码为中间表征的语音合成方法存在累计误差问题以及语义编码由于存在维度爆炸和信息冗余的问题,导致预测困难。
10、缩略语的中英文全称:
11、tts(text-to-speech)语音合成是智能语音交互的核心技术之一。通过将接收到的文字序列转换为自然逼真的语音波形,反馈传递给用户。语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科,是信息处理领域不可或缺的一门关键技术。
12、g2p(grapheme-to-phoneme)字音转换,输出文本的拼音或音素标注,通常采用基于规则的字典映射方法。而在字音转换的过程中存在多音字辨识问题,字音转换结果对于合成系统的发音有着极大的影响,所以多音字消歧也是语音合成方向的热点研究问题。
13、vae(variational autoencoder)变分自编码器,将真实样本通过编码器网络变换成一个理想的数据分布,数据分布传递给一个解码器网络,得到生成样本。在自编码器模型上做进一步变分处理,使得编码器的输出结果能对应到目标分布的均值和方差。
技术实现思路
1、本发明在基于端到端语音合成框架基础上,针对目前方法存在的问题,提出一种基于语言模型(language model)及扩散模型(diffusion model)的波形建模方法。
2、本发明的技术方案是基于语言及扩散模型的少监督语音合成方法,包括如下步骤:
3、a语义编码预测:
4、对于输入的文本text通过字转音模型g2p得到对应的音素序列phoneme token;
5、输入的提示语音prompt speech通过语义编码器semantic encoder得到对应的提示语义序列prompt semantic token;
6、音素序列phoneme token和提示语义序列prompt semantic token输入语义语言模型semantic language model得到目标语义序列target semantic token;
7、b声学特征预测:在这一阶段,提示语音prompt speech对应的梅尔谱特征promptmel-spectrogram通过提示编码器prompt encoder得到对应的提示嵌入层promptembedding,提示嵌入层prompt embedding和目标语义序列target semantic token一起输入至声学扩散模型acoustic diffusion model预测得到目标梅尔谱特征target mel-spectrogram,在这一阶段,通过扩散模型acoustic diffusion model将语义嵌入到mel-spectrogram中;
8、c波形预测:在这一阶段目标梅尔谱特征target mel-spectrogram输入至波形扩散模型wave diffusion model预测得到对应的语音波形。
9、所述提示编码器prompt encoder为基于vae的模型,从提示语音中提取副语言信息,该模型由一个6层2d卷积网络和一个se-resnet块组成,后者通过对信道间的相互依赖关系进行建模,重新校准信道特征响应。
10、有益效果
11、a)声学扩散模型(acoustic diffusion model)将语义嵌入到mel-spectrogram中,以解决现有基于语言模型的自回归方法的高频波形失真问题。
12、b)设计了一种基于扩散模型的声码器模型(wave diffusion model),解决了传统
13、transformer声码器结构导致音质降低的问题。
14、c)设计了基于变异自动编码器(vae)和韵律瓶颈层的prompt encoder,以提高捕获音色、风格等副语言信息的能力。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23809.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。