一种基于增强自监督框架的说话人识别方法及系统
- 国知局
- 2024-06-21 11:28:46
本发明属于语音识别,尤其是涉及一种基于增强自监督框架的说话人识别方法及系统。
背景技术:
1、说话人识别技术是一种用于识别和验证个体身份的声音信号处理技术。它基于声音信号的特征和模式,通过分析和比较声音的特征,来确定说话者的身份。说话人识别技术可以应用于多个领域,如身份验证和访问控制:使用语音进行身份识别的门禁系统、手机解锁等。电话安全:在电话银行、电话投票等系统中,说话人识别可以用于确认用户的身份,防止身份冒用。犯罪侦查:说话人识别可以用于调查和侦破犯罪案件,例如判断威胁电话的来源、对嫌疑人的声音进行识别等。语音助手和智能家居:说话人识别可以让智能助手(如siri、alexa等)识别和区分不同的用户,为每个用户提供个性化的服务。
2、随着深度学习技术的发展,众多研究者使用深度神经网络来获取具有区分性信息的说话人矢量,如x-vector、resnet等。
3、如公开号为cn110047504a的中国专利文献公开了一种身份矢量x-vector线性变换下的说话人识别方法;公开号为cn114360551a的中国专利文献公开了一种基于性别和语言的说话人识别方法,利用resnet模型获取语音特征向量。
4、上述网络需要使用海量有标签的说话人数据来训练,但是现如今,手动对语音标注成本较高,特别是标注海量语音数据需要耗费巨大的时间和精力。
技术实现思路
1、本发明提供了一种基于增强自监督框架的说话人识别方法,可以有效提高说话人识别性能,同时具有数据收集成本低、无需人工标注等优点。
2、一种基于增强自监督框架的说话人识别方法,包括以下步骤:
3、(1)准备说话人语音数据集,将数据集分为训练集和测试集;
4、(2)构建增强自监督框架的说话人识别模型,包含结构相同、参数不同的教师模型和学生模型;
5、(3)对于训练数据集的每个样本,在训练过程中,使用随机采样策略对该段音频进行切分,长时片段作为教师模型输入,短时片段作为学生模型输入,通过教师模型的输出来指导学生模型提取鲁棒性强的说话人特征;
6、(4)将待识别的两段音频输入训练好的说话人识别模型,提取说话人特征,计算两段音频的相似度得分,利用自适应得分规整算法计算规整后的相似度得分,根据规整后的相似度得分判断两段音频是否为同一个人。
7、步骤(2)中,所述的教师模型和学生模型均包含编码器和投影头;其中,使用编码器提取说话人特征矢量,使用投影头将编码器输出的特征映射到更高维的空间,得到高维特征表示;
8、教师模型的输出使用sk归一化算法进行归一化,并在训练过程中计算教师网络和学生网络输出概率的交叉熵损失。
9、使用编码器提取说话人特征矢量的具体过程为:
10、使用延时神经网络层tdnn提取输入音频的语音特征;
11、tdnn层通过对输入音频的不同时间窗口进行卷积操作,捕捉到不同时间尺度上的特征;
12、为了增加输入特征的时间上下文信息,引入跳帧层,将输入特征按照一定的跳帧间隔进行采样,从而扩展特征的时间范围;
13、使用平行注意力机制,将特征分为多个子通道,并对每个子通道进行注意力加权;
14、使用上下文聚合整合不同时间窗口的特征信息,将不同时间窗口的特征进行加权平均,得到一个综合的说话人特征向量;
15、使用全局平均池化对说话人特征向量进行降维,转换为低维的说话人特征矢量。
16、投影头通过多层感知机结构实现,将低维的说话人特征矢量映射到高维特征表示。
17、计算教师网络和学生网络输出概率的交叉熵损失,公式如下:
18、
19、式中,h(a|b)=-a*logb是交叉熵,表示两个长时语音片段,表示四条短时语音片段;ptea和pstu分别代表教师网络和学生网络的输出概率分布。
20、教师模型的输出使用sk归一化算法进行归一化,具体过程为:
21、初始化:给定一个非负的稀疏矩阵p,初始化一个正的稀疏矩阵k,使得k的行和列之和均为1;
22、更新行:对于稀疏矩阵k的每一行,计算其与矩阵p的行的点积,然后归一化得到新的行;
23、更新列:对于稀疏矩阵k的每一列,计算其与矩阵p的列的点积,然后归一化得到新的列;
24、重复更新行和更新列的迭代更新,直到两个迭代步之间的差异小于设定阈值,停止迭代。
25、步骤(4)中,将待识别的两段音频输入训练好的说话人识别模型,提取说话人特征,计算两段音频的相似度得分,利用自适应得分规整算法计算规整后的相似度得分,具体过程为:
26、(4-1)随机选取训练集中的n个样本,利用说话人识别模型计算这些样本代表的说话人特征f={f1,f2,……,fn};
27、(4-2)利用训练好的说话人识别模型计算测试样本的说话人特征e={e1,e2,……,em},并计算与步骤(4-1)得到的说话人特征f的相似度得分:
28、sfe={sf1-e1,sf1-e2,......,sf1-em,......,sfn-e,sfn-e2,......,sfn-em}
29、(4-3)利用训练好的说话人识别模型计算注册样本的说话人特征t={t1,t2,......,tk},并计算与步骤(4-1)得到的说话人特征f的相似度得分:
30、sft={sf1-t1,sf1-t2,......,sf1-tk,......,sfn-t1,sfn-t2,......,sfn-}
31、(4-5)对步骤(4-2)中计算得到的sfe和步骤(4-3)中计算得到sft,选择相似度得分较高的p个样本对,对待识别的两段音频进行相似度得分的自适应规整,如公式所示:
32、
33、其中,测试样本和注册样本都来自测试集,并将待识别的两段音频e,t分别作为测试样本和注册样本,μ(sfe)是sfe中选取出的p个样本对的相似度得分平均值,σ(sfe)是sfe中选取出的p个样本对的相似度得分标准差;μ(sft)是sft中选取出的p个样本对的相似度得分平均值;σ(sft)是sft中选取出的p个样本对的相似度得分标准差;s(e,t)是待识别的两段音频的原相似度得分,s(e,t)norm是规整后的相似度得分。
34、一种基于增强自监督框架的说话人识别系统,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述基于增强自监督框架的说话人识别方法。
35、与现有技术相比,本发明具有以下有益效果:
36、1、本发明基于自监督学习,具有数据收集成本低、无需人工标注等优点。首先,本发明的数据收集成本低,自监督学习可以利用大量的无标签语音数据进行训练,相比于需要手动标注的有监督学习,数据收集成本低得多。其次,自监督学习不需要人工标注数据,大大减小时间和人工成本。进一步,自监督学习可以通过利用无标签数据进行数据扩充,从而提高模型的泛化能力和鲁棒性,进而可以提升模型识别性能。
37、2、本发明使用自适应得分规整算法,通过自适应规整增强dino说话人模型得分分布和冒认者得分分布获取得分最大的均值和标准差作为规整参数,可以缩小与测试集的真实得分分布之间的偏差。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21734.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表