技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于对比学习预训练模型的语音识别方法  >  正文

基于对比学习预训练模型的语音识别方法

  • 国知局
  • 2024-06-21 11:41:02

本发明属于语音分析,具体为一种基于对比学习预训练模型的语音识别方法。

背景技术:

1、深度学习方法为语音表示领域带来了重大改进,性能显著。语音处理包含各种任务。对于tts、vc和asr等细粒度生成和识别任务,从语音中提取的中间表示应该成为文本和声学信息之间的"桥梁"。它应该强调语言内容,而不强调副语言信息,如说话人身份和声音细节。因此,为tts、vc和asr开发合适的表征学习模型是一项挑战。

2、自监督表征学习方法,如wav2vec2.0、wav2vec-c、vq-wav2vec、hubert和w2v-bert,提供了通用模型的前景,可以使广泛的任务和领域受益。虽然这些方法可以应用于asr等任务,但在处理vc任务和最小监督tts任务(如spear-tts和diff-lm-speech等)时,它们会遇到冗余和维度爆炸的问题。

3、在有监督的表征学习方法中,ppgs是根据asr声学模型计算得出的。虽然ppgs广泛应用于vc任务,但它本质上是文本信息,无法用于最小监督的tts任务。

4、对比模型通过基于锚表征学习目标样本(正向)与干扰样本(负向)的表征来应对这些挑战。目标是最大化锚和正样本之间的相似性,同时最小化锚和负样本之间的相似性。这种方法已广泛应用于计算机视觉领域,例如open ai的clip、florence和align。

5、在音频领域,基于clip的模型如wav2clip,audioclip和clap已经被开发出来。然而,这些方法侧重于从音频中提取全局描述性信息,用于下游音频分类任务,因此无法满足细粒度生成和识别任务(如tts、vc和asr)的需要。

6、自监督表征学习方法,如wav2vec2.0、wav2vec-c、vq-wav2vec、hubert和w2v-bert,提供了通用模型的前景,可以使广泛的任务和领域受益。这些方法可以应用于asr任务。

7、现有的技术方案的缺点如下:由于现有自监督语音表征方法存在信息冗余的问题,难以提取得到音素信息相关的语音表征用于语音识别任务。现有自监督语音表征方法用于语音识别模型对效果提升有限,同时会引入累积误差问题。

8、缩略语的中英文全称如下:

9、tts(text-to-speech)语音合成是智能语音交互的核心技术之一。通过将接收到的文字序列转换为自然逼真的语音波形,反馈传递给用户。语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科,是信息处理领域不可或缺的一门关键技术。

10、asr(automatic speech recognition)语音识别技术,也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

11、vc(voice conversion)语音转换即在保留语音内容的同时,将原说话人的音色转换成指定说话人的音色。在传统变声工具中,基于语音信号处理技术,可将个人音色转换为大叔音、萝莉音等音色,但此时的变声比较单一,仅仅是对音色进行改变,不能进行跨语言、多情感风格的转换,转换效果较为机械。

12、g2p(grapheme-to-phoneme)字音转换,输出文本的拼音或音素标注,通常采用基于规则的字典映射方法。而在字音转换的过程中存在多音字辨识问题,字音转换结果对于合成系统的发音有着极大的影响,所以多音字消歧也是语音合成方向的热点研究问题。

13、vae(variational autoencoder)变分自编码器,将真实样本通过编码器网络变换成一个理想的数据分布,数据分布传递给一个解码器网络,得到生成样本。在自编码器模型上做进一步变分处理,使得编码器的输出结果能对应到目标分布的均值和方差。

技术实现思路

1、本发明旨在提供一种基于对比学习预训练模型的语音识别方法,以解决现有技术存在的问题。

2、本发明的技术方案是基于对比学习预训练模型的语音识别方法,ctap使用对比学习技术联合训练语音编码器(speech encoder)、音素编码器(phoneme encoder)、提示编码器(prompt encoder)和解码器(decoder),以学习语音和音素之间的帧级别相似性;

3、包括如下步骤:

4、音素编码:在这一阶段,匹配的文本-语音对分别进行编码,文本(text)对应的音素序列(phoneme)和时长(duration)输入长度调节器(lengthregulator)得到上采样之后的音素序列,处理之后的音素序列输入音素编码器(phonemeencoder)得到编码后的音素嵌入层(phoneme embedding);

5、语音编码:在这一阶段,匹配的文本-语音对分别进行编码,语音(speech)对应的梅尔谱特征(mel-spectrogram)输入语音编码器(speechencoder)得到编码后的语音嵌入层(speechembedding);

6、提示编码:在这一阶段,语音(speech)对应的梅尔谱随机截取3秒作为提示梅尔谱(promptmel-spectrogram),提示梅尔谱输入提示编码器(promptencoder)得到编码后的提示嵌入层(promptembedding);

7、对比学习训练:在这一阶段,步骤(1)和步骤(2)提取得到的音素编码(phonemeembedding)和语音编码(speechembedding)的形状分别重置为2维矩阵,此时重置后的两个编码的长度与维度完全一致,重置后的音素编码与语音编码进行对比学习,相同长度位置对应的为正样例,其余位置为负样例,得到对比损失loss_contrastive;

8、重构损失训练:在这一阶段,步骤(1)和步骤(2)提取得到的音素编码(phonemeembedding)和语音编码(speechembedding)分别输入联合编码器(decoder),同时将步骤(3)得到的提示编码(promptembedding)作为条件输入,分别预测得到两个梅尔谱:音素预测和语音预测,这两个预测得到的梅尔谱与真实的梅尔谱计算mse损失,分别得到重构损失loss_mse(phoneme)和loss_mse(speech);

9、语音识别模型训练:在这一阶段,利用上述步骤(1)~(5)预训练好的ctap语音表征模型,用于训练的语音数据的梅尔谱通过预训练的语音编码器(speech encoder)提取语音编码(speech embedding),后接一个音素解码器(phoneme decoder)用于预测音素序列(prediction phoneme),此过程的语音编码器(speechencoder)权重是冻结的,只需要训练音素解码器(phonemedecoder),同时利用预训练好的ctap模型的音素信息编码能力。

10、进一步的,语音识别模型推理:在这一阶段,介绍推理阶段语音识别模型的流程。语音对应的梅尔谱(sourcespeakermel-spectrogram)输入预训练好的语音编码器(speechencoder)得到编码后的语音嵌入层(speechembedding),输入音素解码器(phonemedecoder)得到预测的音素序列(prediction phoneme)。

11、本发明技术方案带来的有益效果

12、(1)设计了一种基于对比学习的语音表征方法ctap,提取到的中间表征用于语音识别任务。解决了现有语音表征方法存在信息冗余,难以提取得到音素信息相关的语音表征用于语音识别任务的问题。

13、(2)设计了一种基于ctap的语音识别方法,利用预训练的语音编码器实现了语音识别,有效提升语音识别准确率。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22883.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。