技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于语音单元的声纹识别方法及装置与流程  >  正文

一种基于语音单元的声纹识别方法及装置与流程

  • 国知局
  • 2024-06-21 11:38:48

本发明主要涉及声纹识别,尤其是涉及一种基于语音单元的声纹识别方法及装置。

背景技术:

1、声纹信息作为重要的生物特征,是用户身份验证的有效途径之一。声纹识别是指利用语音数据来检测说话人身份的技术,又称为说话人识别。随着人工智能技术的快速发展,越来越多融合了人工智能技术的产品出现在人们的日常生活中,声纹信息的挖掘和识别近年来也取得了良好的发展和广泛的应用,特别是在安防领域和智能设备产品上。

2、目前,大多数的声纹识别应用属于“文本无关”任务,即注册语音和测试语音均没有文本的限制,语音信号中的文本内容可以是任意的。因此,相比于需要限制说话内容的“文本相关”的场景,“文本无关”的说话人识别任务更具挑战。目前主流的声纹识别模型大多是利用神经网络提取语音的帧级别特征,再映射到一个固定长度的向量表示。然而,身份信息并不是均匀分布在语音信号上的,并且帧级别特征往往不是一个完整的发音单元,对于说话人信息的携带有所缺失。

3、目前大多数声纹系统隐式地利用注意力机制或者基于vlad的算法来考虑语音信号中不同帧的语音信号对说话人身份认定的权重,或者利用多任务框架将文本信息引入训练过程,但这些方法通常存在以下问题:

4、1)只能单独地考虑每帧权重,而不能合并地考虑一段连续的语音信号子区间整体对于说话人身份的区分性;

5、2)难以解决同一说话人的不同语句长短差异较大时,声纹识别的不一致性;

6、3)利用多任务模型引入语音的文本信息可以提升系统对文本变化的鲁棒性,但需要大量有精准的转录文本标注的训练语料。

技术实现思路

1、本发明所要解决的技术问题

2、提供一种基于语音单元的声纹识别方法及装置,解决现有的语音识别技术由于文本信息的变化使得同一说话人的不同语音识别率不一致的问题。

3、本发明解决上述技术问题所采用的技术方案

4、一种基于语音单元的声纹识别方法,包括以下步骤:

5、提取输入语音的帧级别特征;

6、预测语音的帧级别特征对应的语音单元的个数以及每个语音单元包含的帧级别特征;

7、将每个语音单元包含的帧级别特征进行融合,得到语音单元特征;

8、将语音单元特征进行融合,得到说话人声特征;

9、计算输入语音的说话人声特征与已注册的说话人声特征的相似度,判断输入语音是否属于已注册的说话人的语音。

10、进一步的,所述语音单元为语音中包含的字数或音素个数。

11、进一步的,所述提取属于语音的帧级别特征具体方法为:利用延时神经网络构建特征提取器,提取出语音信息的梅尔频率倒谱系数作为特征提取器的输入,得到输入语音的帧级别特征。

12、进一步的,所述方法还包括:对输入语音进行噪音叠加和混响;或者对输入语音进行拼接和截断后对特征提取器进行训练。

13、进一步的,所述预测语音的帧级别特征对应的语音单元的个数以及每个语音单元包含的帧级别特征具体包括:构建基于连续集成和发射的语音单元个数预测器对语音单元个数和每一个帧级别特征对应的权重进行预测,语音单元个数预测器的约束条件为:语音单元个数小于或等于帧级别特征个数。

14、进一步的,所述将每个语音单元包含的帧级别特征进行融合,得到语音单元特征具体包括:根据语音单元预测器对每个帧级别特征输出的权重值,确定每个语音单元的边界,将属于同一个语音单元的帧级别特征信息进行加权求和,得到的权重即为所述的语音单元特征。

15、进一步的,所述将语音单元特征进行融合,得到说话人声特征具体包括:计算语音单元特征统计均值和方差,将统计均值和方差拼接为固定长度的向量作说话人声特征。

16、进一步的,所述根据说话人声特征计算说话人声语音向量的相似度具体包括:将所述统计均值和方差拼接成的固定长度的向量与已注册的向量进行对比,比较两个向量的余弦相似度,若满足设定的对比条件,则待输入的语音为已注册的说话人的语音。

17、基于上述的一种基于语音单元的声纹识别方法,不问你发明还提供一种基于语音单元的声纹识别装置,包括:语音帧级别特征提取模块、语音单元预测模块、语音单元特征生成模块、语音单元特征融合模块和识别模块;

18、所述语音帧级别特征提取模块,用于提取输入语音的帧级别特征;

19、所述语音单元预测模块,用于预测所述帧级别特征对应的语音单元个数及每个语音单元包含的帧级别特征;

20、所述语音单元特征生成模块,用于对语音单元包含的帧级别特征进行融合,得到语音单元特征;

21、语音单元特征融合模块,用于对语音单元特征进行融合,得到说话人声向量;

22、所述识别模块,用于根据说话人声特征计算说话人声语音向量的相似度,判断输入的语音是否属于已注册的说话人的语音。

23、本发明的有益效果

24、本发明提供的一种基于语音单元的声纹识别方法和装置可以关注到每一段连续的语音信号区间对于说话人身份的区分性,充分利用语音信号连续性的特征,当同一说话人的不同语音信号长度相差较大时,能够让声纹识别装置从每个语音单元中提取到更丰富的说话人身份信息,提升声纹识别的效果;同时能够灵活有效地利用语音文本内容,在一定程度上抑制由于语音信号文本变化造成的声纹识别能力下降。

技术特征:

1.一种基于语音单元的声纹识别方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音单元的声纹识别方法,其特征在于,所述语音单元为语音中包含的字数或音素个数。

3.根据权利要求2所述的一种基于语音单元的声纹识别方法,其特征在于,所述提取输入语音的帧级别特征具体方法为:利用延时神经网络构建特征提取器,将语音信息的梅尔频率倒谱系数作为特征提取器的输入,得到输入语音的帧级别特征。

4.根据权利要求2所述的一种基于语音单元的声纹识别方法,其特征在于,所述方法还包括:对输入语音进行噪音叠加和混响,或者对输入语音进行拼接和截断后对特征提取器进行训练。

5.根据权利要求4所述的一种基于语音单元的声纹识别方法,其特征在于,所述预测语音的帧级别特征对应的语音单元的个数以及每个语音单元包含的帧级别特征具体包括:构建基于连续集成和发射的语音单元个数预测器对语音单元个数和每一个帧级别特征对应的权重进行预测,语言单元个数预测器的约束条件为:语音单元个数小于或等于帧级别特征个数。

6.根据权利要求5所述的一种基于语音单元的声纹识别方法,其特征在于,所述将每个语音单元包含的帧级别特征进行融合,得到语音单元特征具体包括:根据语音单元个数预测器输出的每个帧级别特征权重值,确定每个语音单元的边界,将属于同一个语音单元的帧级别特征信息进行加权求和,得到的权重即为所述的语音单元特征。

7.根据权利要求6所述的一种基于语音单元的声纹识别方法,其特征在于,所述将语音单元特征进行融合,得到说话人声特征具体包括:计算语音单元特征统计均值和方差,将统计均值和方差拼接为固定长度的向量作为说话人声特征。

8.根据权利要求7所述的一种基于语音单元的声纹识别方法,其特征在于,所述计算输入语音的说话人声特征与已注册的说话人声特征的相似度具体包括:将所述统计均值和方差拼接成的固定长度的向量与已注册的说话人声特征向量进行对比,比较两个向量的余弦相似度,若满足设定的对比条件,则输入的语音为已注册的说话人的语音。

9.一种基于语音单元的声纹识别装置,用于实现权利要求1-8任意一项所述的一种基于语音单元的声纹识别方法,其特征在于,包括:语音帧级别特征提取模块、语音单元预测模块、语音单元特征生成模块、语音单元特征融合模块和识别模块;

技术总结本发明主要涉及声纹识别技术领域。为了解决现有的语音识别技术由于文本信息的变化是使得同一说话人的不同语音识别率不一致的问题,本发明提供一种基于语音单元的声纹识别方法及装置,所述方法包括:提取输入语音的帧级别特征;预测语音的帧级别特征对应的语音单元的个数以及每个语音单元包含的帧级别特征;将每个语音单元包含的帧级别特征进行融合,得到语音单元特征;将语音单元特征进行融合,得到说话人声特征;根据说话人声特征计算说话人声语音向量的相似度,判断输入的语音是否属于已注册的说话人的语音。技术研发人员:汪欣,谢川,展华益受保护的技术使用者:四川启睿克科技有限公司技术研发日:技术公布日:2024/3/24

本文地址:https://www.jishuxx.com/zhuanli/20240618/22650.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。