基于迁移学习的蒙汉语音翻译方法
- 国知局
- 2024-08-30 14:28:41
本发明属于语音翻译,涉及一种基于迁移学习的蒙汉语音翻译方法。
背景技术:
1、在当今世界日益全球化的背景下,语言交流的重要性变得越来越突出。然而,语言障碍一直是限制人与人之间有效沟通的主要障碍之一。在中国,特别是在少数民族地区,少数民族语言的数字化进程和国家通用语言文字的普及仍面临诸多挑战。
2、在过去的几年里,端到端语音到文本翻译(简称语音翻译)模式在研究界得到了广泛的应用。这些系统在结构上不同于经典的级联系统,它们不是将自动语音识别模型和机器翻译系统连接起来,而是直接将语音翻译成目标语言,而不需要中间转录。该方法解决了级联语音翻译系统的一些局限性,如误差传播和推理时间慢。作为一个跨模态任务,端到端语音翻译模型训练的主要挑战是语音表示和文本嵌入之间存在模态差异。
3、蒙汉语音翻译研究是指将蒙古语语音翻译成汉语文本的过程,蒙汉语音翻译研究面临的问题是数据规模不大、模型推理速度慢等问题。根据语音翻译的任务需求,其训练输入是源语言的语音即蒙汉语音,训练目标是目标语言的文本即汉语文本,这样的“源语音,目标文本”数据的获取成本很高,已有的数据难以形成规模。而端到端语音翻译模型往往参数量巨大,需要大规模的训练数据,如何打破这种数据限制成为了使用端到端语音翻译模型的难点。现有的方法往往采用复杂的机器翻译模型来帮助语音翻译的训练,在实现本发明实施例的过程中,我们发现蒙汉语音翻译的实现还存在以下问题:
4、问题一、缺乏蒙汉语音翻译数据,蒙汉语音翻译现有数据规模较小,如何利用好这个规模较小的数据集,训练一个性能良好的蒙汉语音翻译模型是一个难点;
5、问题二、难以直接学习从源语音到目标文本的映射,蒙汉语音翻译任务本身的复杂性使得直接学习源语音到目标文本的映射成为一项困难的任务,语音信号和文本之间存在复杂的关系,模型很难有效地捕捉这种映射关系;
6、问题三、多模态学习的复杂性高,为了解决数据不足的问题,研究者通常采用多模态学习,共享编码器和译码器,然而,实现有效的多模态学习需要解决模态之间的特征差异和相互关联性,这增加了技术难度。
技术实现思路
1、本发明实施例的目的在于提供一种于迁移学习的蒙汉语音翻译方法,以解决采用端到端语音翻译模型进行蒙汉语音翻译时,语音表示和文本嵌入之间存在模态差异、难以直接学习从源语音到目标文本的映射、采用多模态学习复杂性高的问题。
2、本发明实施例所采用的技术方案是:基于迁移学习的蒙汉语音翻译方法,包括以下步骤:
3、基于迁移学习,构建蒙汉语音翻译模型;
4、利用构建的蒙汉语音翻译模型,进行蒙汉语音翻译。
5、进一步的,所述基于迁移学习,构建蒙汉语音翻译模型的具体过程如下:
6、对输入的语音信号提取声学特征,保留与语音翻译相关的特征,去除冗余信息;
7、利用去除冗余的蒙古语语音及其对应的蒙古语文本训练蒙古语语音识别模型,并将该蒙古语语音识别模型迁移为蒙汉语音翻译任务的声学编码器;
8、利用蒙古语文本和汉语文本训练蒙汉机器翻译模型,并将该蒙汉机器翻译模型迁移为蒙汉语音翻译任务的文本编码器和解码器;
9、基于上述的蒙汉语音翻译任务的声学编码器、文本编码器和解码器结构,建立一个具有注意力机制的序列到序列模型,即蒙汉语音翻译模型;
10、利用声学编码器输出的语音模态深度表示信息和加噪的蒙古语文本信息,训练蒙汉机器翻译和蒙汉语音翻译的多任务学习框架,在此多任务学习框架中共享文本编码器和解码器的权重参数,训练得到蒙汉语音翻译模型。
11、进一步的,在训练蒙汉机器翻译模型前,需要构建蒙古语和汉语的双语词典,该双语词典的构建过程如下:
12、将输入的蒙古语文本转换为拉丁文文本,并对该拉丁文文本进行sentencepiece分割;
13、对汉语文本进行jieba分词,再对分词后的汉语文本进行sentencepiece分割,构建蒙古语和汉语的双语词典。
14、进一步的,利用蒙古语语音及其对应文本训练语音识别模型的具体过程如下:
15、使用hubert语音识别模型,再使用蒙古语的语音识别数据集进行微调训练;
16、hubert语音识别模型微调训练的ctc损失函数为:
17、
18、
19、其中,p(x|s)表示对给定输入序列s,输出序列x的条件概率;π表示输入序列s与输出序列x之间的对应关系或映射,φt是输出序列x中所有长度为t的合法ctc路径的集合;p(π|s)是给定输入序列s,观察到对齐π的条件概率;p(x|s;θhubert)表示给定输入序列s,根据hubert语音识别模型的参数θhubert,观察到最优预测的输出序列即蒙古语文本x的条件概率。
20、进一步的,利用蒙古语文本和汉语文本训练蒙汉机器翻译模型时,需要对蒙古语文本进行加噪,以一定的概率插入重复的词向量和代表空白标记的词向量,生成新的特征向量,并使用加噪生成的新特征向量作为文本嵌入层的输入,进行蒙汉机器翻译模型的训练;
21、蒙汉机器翻译模型的交叉熵损失函数为:
22、
23、pθ(yi|x,yx<i)∝exp(w·f(x,yx<i)); (4)
24、其中,θ表示蒙汉机器翻译模型的参数,pθ(yi|x,yx<i)表示给定先前输入的蒙古语文本x和之前输出的汉语文本序列yx<i,预测当前位置第i步的汉语文本序列输出yi的概率;f(x,yx<i)是通过先前输入的蒙古语文本x和之前输出的汉语文本序列yx<i产生一个特征向量作为输入信息的表示,f是从输入的蒙古语文本x和目标前缀yx<i到第i步解码器最后一层表示的映射;exp(w·f(x,yx<i))表示将特征向量f(x,yx<i)映射到一个非负的实数,w是将特征向量f(x,yx<i)的维数转换为目标词汇表大小的转换矩阵。
25、进一步的,基于蒙汉语音翻译任务的声学编码器、文本编码器和解码器结构,建立蒙汉语音翻译模型并训练的具体过程如下:
26、连接语音识别预训练模型和机器翻译预训练模型,得到初始的蒙汉语音翻译模型;
27、利用蒙古语语音和对应的汉语文本对蒙汉语音翻译模型进行微调,蒙汉语音翻译模型训练的交叉熵损失函数为:
28、
29、pθ(yi|s,s<i)∝exp(w·f(s,ts<i)); (6)
30、其中,θ表示蒙汉语音翻译模型的参数,pθ(yi|s,ys<i)表示给定先前输入的音频序列s和之前输出的汉语文本序列ys<i,预测当前位置i的输出yi的概率;f(s,ys<i)是通过输入的音频序列s和之前输出的汉语文本序列ys<i产生一个特征向量作为输入信息的表示,f是从输入的音频序列s和目标前缀ys<i到第i步解码器最后一层表示的映射,|y|表示输出序列y的长度;exp(w·f(s,ys<i))表示将特征向量f(s,ys<i)映射到一个非负的实数;w是将特征向量f(s,ys<i)的维数转换为目标词汇表大小的转换矩阵;pθ(yi|s,ys<i)∝exp(w·f(s,ys<i))表示pθ(yi|s,ys<i)与exp(w·f(s,ys<i))成正比;
31、通过多任务学习共同训练蒙汉语音翻译模型和机器翻译模型,两种任务通过共享文本编码器和解码器统一训练得到蒙汉语音翻译模型,训练目标为:
32、
33、其中,表示多任务学习的损失函数;表示蒙汉机器翻译任务的损失函数;表示蒙汉语音翻译任务的损失函数。
34、进一步的,基于蒙汉语音翻译任务的声学编码器、文本编码器和解码器结构,建立蒙汉语音翻译模型并训练的过程还包括:
35、语音、文本多融合模态训练蒙汉语音翻译模型,具体过程如下:
36、使用最优传输算法来寻找蒙古语的音频和文本之间的对齐,实现跨模态的知识传递:
37、对于声学编码器输出的语音序列特征文本编码器输出的文本序列特征将最优传输定义为:
38、
39、其中,表示语音特征序列hs和文本特征序列hx之间的距离;tij为第i个语音特征和第j个文本特征之间的最优传输路径;表示语音特征和文本特征之间的欧式距离;n为语音序列hs的长度,为文本序列hx的长度;训练目标是语音特征和文本特征通过最优传输路径tij使得不同模态之间知识传递代价最小;
40、根据跨模态的最优传输算法获得蒙古语的音频和文本之间的对齐后,通过混合概率p*生成与语音序列hs的长度相等的混合序列
41、混合序列hm的选取由u(0,1)的均匀分布决定,如果均匀分布u(0,1)的随机结果p大于p*则从语音序列hs选取,如果均匀分布u(0,1)的随机结果p小于等于p*则从文本序列hx选取,具体如下:
42、
43、其中,表示第i步的混合特征即混合序列hm的第i个特征;
44、按照公式(10)~(11)对预测概率分布pθ(yi|s,ys<i)、pθ(yi|x,yx<i)和pθ(yi|hm,ym<i)进行跨模态的对比学习,使得语音序列hs与混合序列hm的损失函数以及文本序列hx与混合序列hm的损失函数最小化,总体训练目标是使公式(12)的正则化损失最小化,训练目标具体如下:
45、
46、
47、
48、其中,pθ(yi|hm,ym<i)表示给定先前输入的混合序列hm和之前输出的混合序特征ym<i,预测当前位置第i步的输出yi的概率;表示语音信号hs对应输出的概率分布pθ(yi|s,ys<i)与混合序列hm对应输出的概率分布pθ(yi|hm,ym<i)之间的kl散度,表示混合序列hm对应输出的概率分布pθ(yi|hm,ym<i)与语音信号hs对应输出的概率分布pθ(yi|s,ys<i)之间的kl散度;表示混合序列hm对应输出的概率分布pθ(yi|hm,ym<i)与文本信号hx对应输出的概率分布pθ(yi|x,yx<i)之间的kl散度,表示文本信号hx对应输出的概率分布pθ(yi|x,yx<i)与混合序列hm对应输出的概率分布pθ(yi|hm,ym<i)之间的kl散度。
49、进一步的,将知识蒸馏与多模态混合训练方法中,采用知识蒸馏方法辅助训练蒙汉语音翻译模型,具体过程如下:
50、定义语料库知识蒸馏的损失函数定义为语音翻译的预测输出概率分布和硬目标的交叉熵:
51、
52、其中,n表示翻译的输出序列yi的长度;|v|表示翻译的输出序列yi的词汇表大小,表示模型在给定语音信号序列s和部分目标语句ym<i的情况下,预测目标语句的第i个词为j的概率。
53、进一步的,所述蒙汉语音翻译模型的总训练目标为语音翻译交叉熵损失机器翻译的交叉熵损失混合序列与语音、文本模态的正则化损失以及知识蒸馏损失之和,具体如下:
54、
55、其中,λ、μ为正则化损失知识蒸馏损失函数的权重参数。
56、进一步的,所述蒙汉语音翻译模型的解码器通过集束搜索算法匹配具有最大概率的汉语翻译。
57、本发明实施例的有益效果是:
58、(1)提出了一种基于迁移学习的蒙汉语音翻译方法,将蒙汉语音识别模型和蒙汉机器翻译模型知识迁移到蒙汉语音翻译模型中,并通过共享权重参数来弥合语音和文本模态之间的模态鸿沟;
59、(2)提出了一种语音和文本之间跨模态的模态融合蒙汉语音翻译方法,解决了蒙汉语音翻译的数据稀疏的问题;通过对齐语音和文本表示信息,学习从源语音到目标文本的映射,解决了采用端到端语音翻译模型进行蒙汉语音翻译时,难以直接学习从源语音到目标文本的映射的问题;
60、(3)将多模态特征向量混合为统一的特征向量,减少了语音和文本表示空间之间的差异,有效的解决了跨模态数据的模态融合;提出了基于对比学习和知识蒸馏的蒙汉语音翻译方法,以减少不同模态之间的模型表示差异,结合使用对比学习和知识蒸馏方法,增强机器翻译任务向蒙汉语音翻译任务的知识传递,有效地实现语音和文本模态之间的融合,提高多模态翻译任务的性能和效率,解决了采用端到端语音翻译模型进行蒙汉语音翻译时,采用多模态学习复杂性高的问题。
本文地址:https://www.jishuxx.com/zhuanli/20240830/282252.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表