技术新讯 > 乐器声学设备的制造及制作,分析技术 > 面向教育场景的声纹识别模型训练方法与流程 > 正文

面向教育场景的声纹识别模型训练方法与流程

国知局
2024-06-21 11:42:15

本发明涉及声纹识别，具体是涉及一种面向教育场景的声纹识别模型训练方法。

背景技术：

1、声纹识别(voiceprint recognition，vpr)，声纹识别是一种通过分析个人的声音特征来进行身份验证和识别的技术。类似于指纹和人脸识别，每个人都有独特的声音特征，称为声纹。声纹识别作为一种生物识别技术，经历了多年的发展和演进。从上世纪六十年代开始，声纹识别的研究逐渐崭露头角。早期的方法主要基于声音信号的频谱特征进行识别，但受限于当时的技术水平，准确性和鲁棒性有限。到了上世纪八十年代，统计模型开始在声纹识别中得到广泛应用。其中，gmm成为建模声纹特征概率分布的常用方法，极大地提升了声纹识别的准确性。这一时期的研究奠定了声纹识别的基础，并为后续的发展打下了坚实的基础。进入二十一世纪，随着深度学习技术的兴起，声纹识别迎来了一次革命。深度神经网络的引入使得声纹特征提取和模型训练更加高效和准确。卷积神经网络、循环神经网络等新的深度学习模型被应用于声纹识别中，极大地推动了该领域的发展，声纹识别也逐渐走向实际应用，广泛应用于安全认证、音频分析、远程身份验证、说话人划分等领域。

2、随着教育场景中语音识别应用的不断增加，上线和应用声纹识别模型也变得尤为重要。通用语音识别模型通过训练大量的数据集，以便能够理解和转录多种语音样本，从而提供广泛覆盖不同领域和场景的语音识别功能。在很多情况下，基于大规模数据训练的通用语音识别模型已经取得了相当好的效果，并能够满足人们对语音识别的需求。然而，在教育场景中，要求的语音识别模型可能有特定的需求和挑战，同时语音识别也需要更高的精确性和准确性，以支持较为复杂的任务。例如，教育场景可能涉及特定的学科术语、教材上下文或者学生的发音习惯、学生集体朗读等。通常情况下，基于大规模数据训练的通用语音识别模型可能无法满足教育场景的需求，因为它未能覆盖特定于教育领域的训练数据，没有接触到这些特定的数据和背景知识，无法充分适应教育场景从而导致其在该场景下的识别效果不佳。

3、在教育场景中，语音识别系统需要具备针对学习、教育和评估等任务的特殊要求。如果通用语音识别模型没有接触到这些特定的数据和背景知识，它就无法充分适应教育场景，并且可能导致其识别效果不佳。因此，在教育场景下使用通用模型进行上线和应用是不可行的。为了解决这个问题，需要收集教育场景中的语音数据，并进行声纹识别模型的定制化工作，以提高该场景下模型的准确率和性能表现。这样的定制化过程将有助于为教育领域提供更精准、高效的声纹识别系统，为学生和教师提供更好的语音交互体验，并支持教育场景中的个性化辅助教学和评估等应用。

技术实现思路

1、针对上述背景技术指出的技术问题，本发明提供面向教育场景的声纹识别模型训练方法。

2、为解决上述技术问题，本发明的技术方案是：面向教育场景的声纹识别模型训练方法，包括以下步骤:

3、s1数据收集与预处理

4、收集老师学生声音样本数据包括不同环境、不同录制设备下的语音录音，例如上课时的演讲、课堂互动或其它教育活动等，确保数据集包含足够的变化因素，如不同说话人、不同的语速、发音差异等，以便模型能够充分学习声纹的特征。接着，在预处理阶段，对收集到的声音样本进行数据增强和音频质量调整等预处理操作。

5、进一步地，在上述方案中，所述步骤s1中，数据预处理的方法为：

6、s1-1使用迭代器(enumerate)便历数据增强hparams.augment_pipeline(数据增强的列表或管道)中每个数据增强的操作。

7、s1-2 hparams.augment_pipeline(数据增强的列表或管道)中的操作具体为：

8、s1-2-1声学数据增强方法(augment_wavedrop)，它模拟音频信号中的丢失或中断。通过引用这个操作，可以应用声学的波形丢失增强技术。

9、s1-2-2改变音频速度的增强方法(augment_speed)，它可以加快或减慢音频的播放速度。通过引用这个操作，可以应用速度变化增强技术。

10、s1-2-3、反转音频的增强方法(add_rev)，它将原始音频进行反转，生成反转后的音频。通过引用这个操作，可以应用音频反转增强技术。

11、s1-2-4添加噪声的增强方法(add_noise)，它可以模拟不同类型的环境噪声，如白噪声、汽车噪声等。通过引用这个操作，可以应用噪声增强技术。

12、s1-2-5添加反转音频和噪声的增强方法(add_rev_noise)，它结合添加反转音频和添加噪声两种增强技术。通过引用这个操作，可以同时应用反转音频和噪声增强技术。

13、这些增强操作的组合形成一个数据增强pipeline，用于在训练阶段对音频数据进行多样化处理，增加模型对各种音频变化的鲁棒性和泛化能力。

14、s1-3将增强后的音频数据在维度0上进行拼接(concatenate)，形成一个更长的音频序列。这种方法可以增加训练数据的多样性，使模型能够接触到更多不同增强方式产生的音频变化。

15、s2模型训练

16、采用ecapa-tdnn(extended context-aware parallel aggregations timedelay neural network)网络结构进行声纹识别模型的训练，它是在传统的tdnn(timedelay neural network)基础上进行改进的。ecapa-tdnn网络结构的主要特点是引入并行聚合机制和扩展上下文感知。本发明通过并行聚合机制，模型能够更充分地利用输入语音信号的不同尺度特征。由于训练数据主要采用教育场景的语音数据，因此声纹模型在教育场景中具有更高的准确性和适用性，训练后的声纹模型在教育场景中可以更准确地识别和区分说话人的身份。本发明通过更好地适应教育场景的声音特征，模型能够提供更准确和可靠的声纹识别结果。

17、进一步地，所述步骤s2中，ecapa-tdnn的网络结构：输入层、隐含层、输出层。在隐含层中又分为卷积层、池化层、全连接层。

18、s2-1在ecapa-tdnn中，输入层负责接收原始的语音信号并进行预处理、分帧、特征提取和归一化等操作，以及上下文拼接和声学特征处理，这些步骤的目标是提取具有良好表示能力的特征向量，为后续的神经网络层提供输入来执行语音识别任务，所述的输入层有以下几个过程：

19、s2-1-1预加重：ecapa-tdnn的输入是原始的音频信号，通常以离散时间序列的形式表示。这些信号可以来自不同的源，如麦克风、电话或其他录音设备。为了增强高频成分并减少低频成分，ecapa-tdnn通常会对音频信号进行预加重。预加重使用一个高通滤波器，通过减小低频部分的幅度，使得特征提取更加稳定。

20、s2-1-2分帧：音频信号被切割成短时帧，通常每帧持续20-40毫秒。这样做的目的是将连续的音频信号转换为一系列固定长度的特征向量，使其适合于神经网络的输入。

21、s2-1-3特征提取得到特征向量(feats)。针对每个音频帧，ecapa-tdnn使用短时傅里叶变换信号处理技术来提取频谱特征，这些频谱特征可以表示音频信号在不同频率上的能量分布。

22、特征提取方法具体为：

23、s2-1-3-1计算输入音频信号的短时傅里叶变换(stft)，stft将音频信号分解成多个时间窗口，并在每个窗口上进行傅里叶变换，得到频谱信息。

24、s2-1-3-2计算短时傅里叶变换的谱幅(magnitude)和滤波器组(filter banks)。

25、s2-1-3-3计算一阶差分特征和二阶差分特征，一阶差分表示相邻帧之间特征的变化情况，二阶差分表示相邻帧之间一阶差分特征的变化情况。返回处理后的特征矩阵。

26、s2-1-3-4计算特征矩阵的均值(current_mean)和标准差(current_std)。

27、进一步地，在上述方案中，进行特征提取，得到特征向量的计算公式为：

28、gf(∈，u)＝∫f(t)g(t-u)ej∈tdt (1)

29、

30、

31、式(1)是窗式傅里叶变换，g(t-u)为窗口函数，f(t)是信号，ω为频率值，使用时间窗口函数与源信号相乘，实现在u附近的加窗口和平移，然后进行傅里叶变换；

32、式(2)是窗口傅里叶变换的逆变换式，参数如式(1)；

33、式(3)是短时傅里叶变换stft的定义，在公式中，e-j2πωτ是复指数函数，通过对t进行积分，可以获取信号在不同时刻和频率上的变化情况。

34、s2-1-4为了使输入特征在不同帧之间具有一致的范围和分布，ecapa-tdnn对每个特征进行均值归一化和方差归一化。这种归一化操作有助于提高模型的鲁棒性和泛化能力，根据指定的归一化类型，对数据进行不同的归一化处理，最后返回归一化的值。

35、进一步地，在上述方案中，进行归一化的计算公式如式(4)：

36、

37、(4)式是归一化公式,x是原始变量，μ是均值，s是标准差，通过以上计算将输入的音频数据中提取有用的频谱和特征向量。

38、s2-2在ecapa-tdnn的卷积层中，由conv1d+relu+bn模块、se-res2net模块、tdnn模块组成，conv1d+relu+bn模块用于处理序列数据的特征提取和非线性变换。

39、所述的conv1d+relu+bn模块有以下几个组成部分：

40、s2-2-1一维卷积层(conv1d)：这是一个常用的卷积神经网络(cnn)层，用于提取输入序列中的局部特征。一维卷积层通过滑动窗口在输入序列上进行卷积运算，从而在不同位置捕获到不同的特征。卷积操作将输入序列中的邻近元素进行加权求和，并生成新的特征表示。一维卷积层的参数包括卷积核大小、步幅和填充方式等。

41、s2-2-2relu激活函数：relu(rectified linear unit)是一种非线性激活函数，它将所有负值都转化为零，并保持正值不变。relu函数可以增加模型的非线性能力，有助于提取更丰富的特征表示，激活函数为relu，如式(5)。

42、f(x)＝max(x,0) (5)

43、s2-2-3批量归一化层(bn)：bn层通过对每个小批次输入数据进行归一化操作，将输入数据的均值调整为0，方差调整为1，从而加速梯度下降过程。此外，bn层还具有正则化效果，可以减轻模型过拟合问题。

44、尽管在输入层进行了一些初始的预处理，但卷积层中conv1d+relu+bn模块的归一化操作和特征提取操作进一步提高模型的性能和鲁棒性并增强模型的非线性能力。这些操作有助于模型更好地理解输入数据并提取更有用的特征，从而实现更准确的预测或分类，帮助改善模型的性能和泛化能力。

45、在ecapa-tdnn中，se-res2net模块是一种改进的残差网络结构，通过引入一个多尺度分支来增加网络的感受。传统的残差网络只有一个分支，而res2net模块引入多个分支，每个分支具有不同的感受野大小。这样可以在捕捉局部特征的同时，保持全局特征的上下文信息，提高网络在处理复杂场景时的性能。se-res2net模块将se模块和res2net模块结合起来使用。在每个res2net模块的输出上，应用se模块来增强特征的表达能力。这种结合的方式能够有效地提取输入数据的关键特征，并降低冗余特征的影响，进一步提高模型的性能。

46、在ecapa-tdnn中，tdnn模块用于提取输入语音特征的表示。主要用于序列数据处理，它的核心思想是通过共享权重的滑动窗口卷积操作来捕获输入序列中的局部上下文信息。tdnn模块由多个并行的1d卷积层组成，这些卷积层使用不同大小的滑动窗口，并且每个窗口的大小不变。在每个卷积层之后，都会应用一个非线性激活函数relu。通过并行地使用多个卷积层，tdnn模块能够从不同的时间尺度上提取特征。较小的滑动窗口可以捕获短期时间相关性，而较大的滑动窗口可以捕获长期时间相关性。这使得tdnn模块能够更好地处理输入序列中的时域信息。

47、在池化层中，ecapa-tdnn采用asp(attentive statistical pooling)层，主要目的是捕捉输入特征序列的全局上下文信息，并生成一个加权池化表示。asp层首先通过使用注意力机制来计算每个特征向量的重要性权重。这些权重取决于输入序列中的每个位置对于整体任务的贡献程度，较重要的位置会被赋予较高的权重，而较不重要的位置则会被赋予较低的权重。最后，asp层将所有加权特征向量进行统计池化操作，以产生一个具有全局上下文信息的最终表示。

48、在ecapa-tdnn中，全连接层可用于进一步处理ecapa层的输出特征序列。它可以增加模型的非线性能力，并且帮助模型学习更复杂的特征表示。全连接层通常会使用激活函数对输出进行非线性变换，以引入非线性因素。

49、aam(additive angular margin)-softmax层是一种常用的输出层，在ecapa-tdnn模型中用于多类别分类任务。softmax层将输入向量转换为概率分布，使得每个类别的概率值在0到1之间，并且所有类别的概率总和为1。

50、进一步地，在上述方案中，所述softmax层的计算公式如式(6)：

51、

52、其中，xi表示输入向量中第i个元素的值，softmax函数对每个元素进行指数化，然后除以所有元素的指数和以得到归一化后的概率分布。

53、s3在训练阶段，声纹模型会通过学习大规模数据集中的语音特征和声音表示来提取相关信息。在训练声纹模型时，采用融合模型的方法，具体来说，固定音频嵌入模块的参数，即与提取音频特征相关的部分，然后只更新声纹模型中除音频嵌入模块外的其他参数。

54、与现有技术相比，本发明使用ecapa-tdnn模型和教育场景的数据，使得声纹模型在教育场景下更加准确。这一创新的方法带来以下有益效果：

55、1、本发明提高识别准确率：传统的声纹模型可能无法充分考虑到教育场景中的特定变化和语音特征，导致识别准确率下降。然而，通过使用ecapa-tdnn模型和教育场景的数据训练声纹模型，由于训练数据主要采用教育场景的语音数据，因此声纹模型在教育场景中具有更高的准确性和适用性，训练后的声纹模型在教育场景中可以更准确地识别和区分说话人的身份。这对于语音自动化评分、学生参与度分析以及个性化学习等教育应用非常有价值。本发明通过更好地适应教育场景的声音特征，模型能够提供更准确和可靠的声纹识别结果，从而为教育领域的各种任务提供更高的效率和准确性。

56、2、本发明降低误识率：在教育场景中，误识别对于学生和教师来说都是不可接受的。本发明的声纹模型利用ecapa-tdnn模型和教育场景的数据，可以更准确地区分不同的说话者，从而大大降低误识别的风险。这将确保教育场景中的身份验证和评估过程更加可靠和安全。

57、3、本发明卷积层中conv1d+relu+bn模块的归一化操作和特征提取操作进一步提高模型的性能和鲁棒性并增强模型的非线性能力。这些操作有助于模型更好地理解输入数据并提取更有用的特征，从而实现更准确的预测或分类，帮助改善模型的性能和泛化能力。传统的残差网络只有一个分支，而res2net模块引入多个分支，每个分支具有不同的感受野大小。这样可以在捕捉局部特征的同时，保持全局特征的上下文信息，提高网络在处理复杂场景时的性能。tdnn模块能够更好地处理输入序列中的时域信息。

58、4、全连接层用于引入非线性变换和学习复杂特征表示，而softmax层用于将输出转化为概率分布，帮助进行多类别分类任务。这两个层的组合使得ecapa-tdnn模型能够更好地处理语音信号并提高语音识别的准确性。

59、5、训练过程可以通过在大规模带有文本标注的语音数据集上进行训练来实现。通过使用这样的数据集，确保模型具有良好的初始化参数，从而提高模型的准确性和鲁棒性。训练的策略能够帮助声纹模型更好地理解声音的特征和语义含义，从而提高后续任务的性能表现。

60、为了适应目标使用场景，训练模型需要在目标域数据集上进行微调。由于目标使用场景下的数据较少，为了充分利用其他训练数据并减少微调时间，可以将微调过程中的学习率适当降低，可以使模型在处理少量数据时更加稳定，并有效地利用这些有限的数据。较小的学习率有助于模型更好地捕获声学特征和个体差异。由于教育场景下可能只有有限的特定场景数据可供训练，因此减少训练轮数是另一个有效的策略。相比使用大规模数据集的训练，少量数据的训练轮数可以更快地达到饱和状态，减少过拟合风险。通过控制训练轮数，可以避免模型对训练样本的过度拟合，并提高泛化能力。训练完成后，得到一个以声纹为基础的训练模型。这个模型可以作为后续任务的基础，例如教育场景下的说话人识别，语音情感分析等。通过利用这个训练模型，可以更快地开发和定制化新的声纹应用，从而加速模型的部署和推广。

61、6、本发明改善个性化教学体验：随着教育技术的快速发展，个性化教学成为教育的重要趋势。声纹模型在教育场景中的准确性提高，可以更好地支持个性化教学系统的设计和实现。通过识别学生的声纹，系统可以根据每个学生的特点和需求提供定制化的教学内容和反馈，从而提高学习效果。

62、综上所述，本发明的使用ecapa-tdnn模型和教育场景的数据训练声纹模型，在教育场景下取得显著的有益效果，包括提高识别准确率、降低误识率，并改善个性化教学体验。这一创新为教育行业带来更精确和可靠的声纹技术应用，为学生和教师提供更好的教学环境和体验。