一种基于自适应扩充策略的三阶段半监督声纹识别方法

2023-08-06 21:12:54 来源：中国专利 TAG：

技术特征：
1.一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，包括：(1)提出构建三阶段框架的半监督学习方法；(1.1)将对比学习、监督学习以及半监督学习统一在三阶段的半监督学习框架中；(1.2)利用模型自身的分类能力在第二阶段结束后预测初始置信度阈值，进行第三阶段的半监督学习；(2)提出基于自适应扩充策略的三阶段半监督声纹识别方法；(2.1)利用未被置信度阈值选取的无标签数据预测底线阈值；(2.2)在基于所述三阶段框架的半监督学习方法基础上，利用自适应扩充策略，根据模型的性能自适应地结合底线阈值调整置信度阈值，以合理扩充无标签数据的选取量，进一步提升模型的声纹识别性能；(3)完成对所述基于自适应扩充策略的三阶段半监督声纹识别方法的训练和测试；(3.1)利用所述基于自适应扩充策略的三阶段半监督声纹识别方法训练半监督声纹识别模型；(3.2)完成训练后模型的性能测试。2.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(1.1)具体包括：对有标签数据和无标签数据进行数据强增强和数据弱增强，其中数据强增强是在原始音频中加入音乐、人声、噪音或混响脉冲响应，并在特征提取后进行时域-频域增强，数据弱增强是只在特征提取后进行时域-频域增强，时域增强表示为其中x(t)表示时间t下的信号，t1和t2表示数据增强的起止时域，频域增强表示为其中，x(f)表示频段f下的信号，f1和f2表示数据增强的起止频域。3.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(1.1)具体包括：利用无标签声纹数据进行第一阶段对比学习，采用强化对抗训练的对比学习方法构建正负样本对，利用对比学习使模型学习到数据间的相似性，对比学习结束后，获取编码器的参数用于第二阶段。4.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(1.1)具体包括：利用有标签数据在第一阶段对比学习的基础上，进行第二阶段监督学习提升模型的分类能力，当模型的性能趋近稳定时，结束第二阶段监督学习，获取编码器的参数用于第三阶段。5.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(1.1)具体包括：在第二阶段监督学习的基础上进行第三阶段半监督学习，将弱增强的无标签数据经过编码器获取概率向量分布，将概率最大值大于置信度阈值的样本所预测出的标签作为伪标
签，并对强增强数据计算损失其中，表示无标签数据集，x
u
表示无标签数据，f
θ
(
·
)表示编码器，f
θ
(a
w
(x
u
))表示弱增强的无标签数据经过编码器获取的概率向量分布，a
s
(x
u
)表示强增强的无标签数据，τ表示置信度阈值，h(
·
)表示附加角度边界的归一化指数函数损失，有标签数据与其真实标签计算损失进行监督学习其中，表示有标签数据集，x
l
表示有标签数据，y表示数据的真实标签，利用总损失进行半监督学习。6.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(1.2)具体包括：在第二阶段监督学习基础上，利用有标签数据，通过模型自身的分类能力预测初始阈值作为第三阶段的置信度阈值，将有标签数据概率向量分布最大值对应的类与真实标签进行比对，将相同数据对应的概率最大值求平均作为第三阶段初始置信度阈值，该置信度阈值可以根据当前模型对数据的分类能力对无标签数据进行置信度筛选。7.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(2.1)具体包括：根据置信度阈值将无标签数据分为被选择和未被选择，对于未被选择的无标签数据进行数据弱增强，并经过编码器获取概率向量分布，将概率向量分布中的最大值求平均作为底线阈值，其中，κ
i
表示第i个epoch的底线阈值，u表示未被选择的无标签数据量，n表示无标签数据的总量，τ
i
表示第i个epoch的置信度阈值。8.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(2.2)具体包括：第三阶段利用提出的自适应扩充策略，根据模型的性能自适应地结合底线阈值调整置信度阈值，以增加无标签数据的选取量，当模型的性能趋于稳定时，根据初始阈值、底线阈值、当前的训练轮数和总训练轮数自适应调整置信度阈值，使模型在保证高质量的无标签数据前提下逐渐增加无标签数据的选取量，进一步提高无标签数据的利用率。9.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(3.1)具体包括：将所述基于自适应扩充策略的三阶段半监督声纹识别方法和声纹识别模型ecapa-tdnn相结合，利用声纹数据集对所述基于自适应扩充策略的三阶段半监督声纹识别方法训练半监督声纹识别模型。10.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法，其特征在于，所述的步骤(3.2)具体包括：利用声纹数据集对训练后的模型进行性能测试，通过等错误率，以及所选取的无标签数据对应的伪标签质量和数量等性能指标验证声纹识别结果，完成基于自适应扩充策略的三阶段半监督声纹识别任务。

技术总结
本发明涉及一种基于自适应扩充策略的三阶段半监督声纹识别方法，包括：(1)提出构建三阶段框架的半监督学习方法；(2)提出基于自适应扩充策略的三阶段半监督声纹识别方法；(3)完成对基于自适应扩充策略的三阶段半监督声纹识别方法的训练和测试。本发明提出的一种基于自适应扩充策略的三阶段半监督声纹识别方法，能在有标签声纹数据不足时充分利用无标签声纹数据提升声纹识别性能，具有较低的等错误率，表现出一定的有效性。表现出一定的有效性。表现出一定的有效性。

技术研发人员：王兴梅刘菁瀚杨东梅张越张万松
受保护的技术使用者：哈尔滨工程大学
技术研发日：2023.06.07
技术公布日：2023/8/5

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种非接触式旋转装置及一种调制件制备方法与流程

一种基于自适应扩充策略的三阶段半监督声纹识别方法

最热文献