技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于增量学习的语种识别方法 > 正文

一种基于增量学习的语种识别方法

国知局
2024-06-21 11:46:54

本发明属于语种识别，涉及一种基于增量学习的语种识别方法。

背景技术：

1、语种识别是指计算机根据不同语种的特性判断给定语音片段所属语言种类的技术，广泛应用于多语言信息处理场景，如自动语音识别等。

2、传统的语种识别模型注重于特征的提取处理，可以分为基于音素特征和基于声学特征的两大类。基于音素特征的方法将语音转化为音素序列，通过不同语言音素搭配规律的差异来提取音素特征。而基于声学特征的方法直接从语音信号中提取声学特征，如线性预测倒谱系数、梅尔频率倒谱系数和感知线性预测系数等，然后通过算法(如高斯混合等)得到目标特征，最终通过统计模型计算分数来进行语种判断，代表方法有基于高斯混合模型的通用背景模型(gmm-ubm)和基于辨识矢量的方法(i-vector)。

3、基于深度学习的语种识别采用端到端的神经网络架构完成特征提取和识别任务。这种方法无需手动提取特征，可以获得更优秀的表示学习，并能够有效利用大规模数据。具体实现为：收集并准备标注好的多语种语音数据集作为训练样本，然后进行语音信号的特征提取，接着构建深度学习模型(常用的模型包括卷积神经网络或循环神经网络)，用于从提取的特征中学习语种之间的差异。以声学特征作为输入，语种预测作为输出，进行模型训练，并通过验证集来调优模型参数，以提高泛化性能。最后，使用测试集评估模型在未见过的数据上的性能，实现对不同语种的准确识别。

4、传统的语种识别模型中，基于音素特征的语种识别方法根据不同语言音素搭配规律的不同来识别语种，性能表现优越，但是该方法需要带有音素标注的语音数据，计算代价高昂且繁琐。基于声学特征的语种识别方法直接从语音片段中提取底层声学特征序列，不需要额外的标注信息，但是单帧底层声学特征区别性不大，使用其作为语种识别的依据会影响特定语种之间的识别准确率，比如方言语种之间的区分。

5、基于深度学习的语种识别模型性能优于前两者，是目前语种识别任务中最常用的方法，但是其也面临两个关键的缺陷问题：成本和遗忘。首先，由于深度神经网络的训练需要大量的计算资源和时间，当需要添加新的语种进行识别时，重新训练整个网络会带来巨大的开销，包括硬件、时间和计算成本。其次，采用传统微调方法时，网络容易出现灾难性遗忘，即对新语种的适应会导致对已有语种的性能下降，因为模型会忘记先前学到的信息，对其他语种的识别效果会受到明显影响。这限制了模型的灵活性和可扩展性，使得应对多语种环境的挑战变得更为困难。

技术实现思路

1、本发明的目的是提出一种基于增量学习的语种识别方法，可以在不使用旧语种数据的情况下，对已训练好的语种识别模型进行更新，使得语种识别模型在学习识别新语种的过程中保持对旧语种识别的准确率，以此解决模型在增量训练过程中面临的成本和遗忘的问题。

2、本发明提供一种基于增量学习的语种识别方法，包括：

3、步骤1：对原始音频文件进行预处理，提取得到音频特征序列；

4、步骤2：搭建基于transformer的语种识别模型框架；

5、步骤3：使用多语种数据集训练语种识别模型，采用交叉熵损失函数进行优化训练；

6、步骤4：保持步骤3训练好的语种识别模型的结构和参数不变，在其解码端添加新预测层，构成新的语种识别模型；

7、步骤5：将新的多语种数据集输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率；

8、步骤6：设置新的损失函数，通过最小化损失函数来更新新的语种识别模型的参数；

9、步骤7：使用随机梯度下降法训练新的语种识别模型，最终得到基于增量学习的语种识别模型。

10、进一步的，所述步骤1具体为：

11、针对原始音频，使用梅尔倒谱系数语音特征提取算法处理计算得到对应的梅尔倒谱系数。

12、进一步的，所述步骤2中的语种识别模型框架包括：特征提取器、编码器、解码器和预测层；

13、所述特征提取器包括两个间隔为2，卷积核为2×2的卷积层；特征提取器将输入的音频特征序列的长度进行压缩，得到长度为原始音频特征序列长度四分之一的音频序列；

14、编码器由多个相同的编码层组成，每个都编码层包含自注意力层和前馈神经网络层两个子层；

15、解码器由多个相同的解码层组成，每个解码层包含自注意力层、交叉注意力层和前馈神经网络层三个子层；

16、预测层：解码器的输出经过预测层后得到维度为语种数量的向量，归一化后得到预测的语种概率分布，得到每个语种的预测概率。

17、进一步的，所述步骤3具体为：

18、步骤3.1：采集多语种数据集{x,y}，x为多语种的音频文件经过预处理得到的音频特征序列集合，y为x对应的真实的语种概率分布；

19、步骤3.2：将多语种数据集输入到语种识别模型中，得到预测的语种概率分布；

20、步骤3.3：采用如下交叉熵损失函数进行优化训练，使得语种识别模型能准确识别各种语种，最终得到训练好的语种识别模型；

21、

22、其中，c为多语种数据集的语种数量，为预测的语种概率分布，为预测的语种概率，y＝(y1,y2,…yc)为真实的语种概率分布，yi为真实的语种概率。

23、进一步的，所述步骤4具体为：

24、保持步骤3训练好的语种识别模型的结构和参数不变，仅在解码器后添加新的预测层，使得解码器的输出经过新的预测层输出得到维度大小为更新后语种数量的向量，进而支持预测新增加的语种。

25、进一步的，所述步骤5具体为：

26、步骤5.1：采集新的多语种数据集{xn,yn}，xn为新的多语种的音频文件经预处理得到的音频特征序列集合，yn为xn对应的真实的语种概率分布；

27、步骤5.2：将xn输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率分布和新预测层输出的预测的语种概率分布d为新的多语种数据集的语种数量。

28、进一步的，所述步骤6的修改后的损失函数为：

29、

30、其中，lnew为交叉熵损失函数，lold为知识蒸馏损失函数，yn为真实的语种概率分布，为新预测层输出的预测的语种概率分布；为旧预测层输出的预测的语种概率分布；为的子集，是取前c个元素得到的集合，即λo为权重参数；为正则项；

31、

32、

33、

34、

35、其中，t＝2，λ为正则化参数，θ为新的语种识别模型的参数，n为新的语种识别模型的参数总数。

36、本发明的一种基于增量学习的语种识别方法，最终构建的基于增量学习的语种识别模型可以获取到增量学习的能力。该能力使得模型可以不断学习新的语种知识，在吸收新知识的同时保留、整合、优化旧知识，在训练的过程中无需旧语种数据的参与，进一步降低训练所带来的计算和空间资源的浪费。

技术特征：

1.一种基于增量学习的语种识别方法，其特征在于，包括：

2.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤1具体为：

3.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤2中的语种识别模型框架包括：特征提取器、编码器、解码器和预测层；

4.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤3具体为：

5.如权利要求1所述的基于增量学习的语种识别方法，其特征在于，所述步骤4具体为：

6.如权利要求4所述的基于增量学习的语种识别方法，其特征在于，所述步骤5具体为：

7.如权利要求6所述的基于增量学习的语种识别方法，其特征在于，所述步骤6的修改后的损失函数为：

技术总结本发明的一种基于增量学习的语种识别方法，包括步骤1：对原始音频文件进行预处理，提取得到音频特征序列；步骤2：搭建基于Transformer的语种识别模型框架；步骤3：使用多语种数据集训练语种识别模型，采用交叉熵损失函数进行优化训练；步骤4：保持步骤3训练好的语种识别模型的结构和参数不变，在其解码端添加新预测层，构成新的语种识别模型；步骤5：将新的多语种数据集输入到新的语种识别模型中，得到旧预测层输出的预测的语种概率和新预测层输出的预测的语种概率；步骤6：设置新的损失函数，通过最小化损失函数来更新新的语种识别模型的参数；步骤7：使用随机梯度下降法训练新的语种识别模型，最终得到基于增量学习的语种识别模型。技术研发人员：王老虎,刘浩伟,马安香受保护的技术使用者：东北大学技术研发日：技术公布日：2024/4/29