一种基于自动声纹鉴定的声纹识别方法和系统与流程
- 国知局
- 2024-06-21 11:31:12
本发明涉及声纹识别,尤其涉及一种基于自动声纹鉴定的声纹识别方法和系统。
背景技术:
1、随着声纹识别技术在公安、金融反欺诈、刑事侦查等方向的广泛应用,其应用场景越来越多及相关技术指标要求也越来越高。声纹识别,生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号,再用计算机进行识别。目前,声纹识别技术有了很大发展,但是其声纹验证的召回率和精准率还有很大提升空间。现在的声纹识别更多地依赖模型的表达能力和一些后端处理技术,这部分主要依赖于模型提取的声纹特征。但更多地依赖模型的表达能力,会有一定的不足之处:
2、首先,声纹识别结果是声纹特征之间的相似度。但是,不同时刻,提取同一个人的声纹特征可能也会存在显著的差异,用户难以录入所有的词语发音进行识别,为了基于元辅音声纹,可以进行识别出用户可发出所有字词的发音声纹,本发明提出了一种基于自动声纹鉴定的声纹识别方法和系统。
技术实现思路
1、本发明提供了一种基于自动声纹鉴定的声纹识别方法和系统,以解决上述背景技术中提出的问题。
2、为了实现上述目的,本发明采用了如下技术方案:
3、一种基于自动声纹鉴定的声纹识别方法,包括以下步骤:
4、s1,获取大量不同背景、不同人声的语音分割为特定长度的语音段,并将大量的语音段组成数据集,且数据集中每一个样本包括语音段、元音声纹、清辅音声纹、浊辅音声纹四个指标数据;
5、s2,构建元辅音声纹识别模型;
6、s3,用户需要识别的用户声纹的目标语音,将语音标准化后输入所述元辅音声纹识别模中,得到元音声纹、清辅音声纹、浊辅音声纹的结果;
7、s4、根据获取元音声纹、清辅音声纹、浊辅音声纹,识别出用户可发出所有字词的发音声纹。
8、作为本技术方案的进一步改进方案:所述s1中,将所述数据集分为训练集和验证集,利用训练集同时训练多种机器学习模型,并利用验证集评估不同机器学习模型的表现精度,选择表现最佳的机器学习模型构建元辅音声纹识别模型。
9、作为本技术方案的进一步改进方案:所述s2,构建元辅音声纹识别模型,具体为:利用所述数据集对机器学习模型进行训练,其中机器学习模型以经过标准化后的语音段作为输入,以元音声纹、清辅音声纹、浊辅音声纹作为输出,通过监督学习得到元辅音声纹识别模型。
10、作为本技术方案的进一步改进方案:所述s2中,所选择的机器学习模型为逻辑回归、线性判别分析、k近邻、朴素贝叶斯、支持向量机、随机森林、神经网络中的至少一种。
11、作为本技术方案的进一步改进方案:所选择的机器学习模型为随机森林模型。
12、作为本技术方案的进一步改进方案:所述s3中,元音声纹包括英语国际音标中20个元音音素的声纹。
13、作为本技术方案的进一步改进方案:所述s3中,清辅音声纹括英语国际音标中11个清辅音音素的声纹。
14、作为本技术方案的进一步改进方案:所述s3中,清辅音声纹括英语国际音标中17个浊辅音音素的声纹。
15、作为本技术方案的进一步改进方案:s4、根据获取元音声纹、清辅音声纹、浊辅音声纹,识别出用户可发出所有字词的发音声纹,具体为:
16、将所有元音声纹、清辅音声纹、浊辅音声纹按照拼读规则进行相互拼读连读,可得到用户发出所有字词的发音声纹。
17、本发明还提出一种基于自动声纹鉴定的声纹识别系统,包括数据集采集模块:用于大量的语音段组成数据集,且数据集中每一个样本包括语音段、元音声纹、清辅音声纹、浊辅音声纹四个指标数据;
18、模型构建模块:用于构建元辅音声纹识别模型;
19、元辅音声纹识别模块:用于将用户需要识别的用户声纹的目标语音,将语音标准化后输入所述元辅音声纹识别模中,得到元音声纹、清辅音声纹、浊辅音声纹的结果;
20、字词发音声纹识别模块:用于根据获取元音声纹、清辅音声纹、浊辅音声纹,识别出用户可发出所有字词的发音声纹。
21、与现有技术相比,本发明的有益效果是:
22、本发明可通过元辅音声纹识别模型自动鉴定出所有元音声纹、清辅音声纹、浊辅音声纹,然后再根据元音声纹、清辅音声纹、浊辅音声纹识别出用户可发出所有字词的发音声纹,提高了声纹识别结果的准确性。
23、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
技术特征:1.一种基于自动声纹鉴定的声纹识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所述s1中,将所述数据集分为训练集和验证集,利用训练集同时训练多种机器学习模型,并利用验证集评估不同机器学习模型的表现精度,选择表现最佳的机器学习模型构建元辅音声纹识别模型。
3.根据权利要求2所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所述s2,构建元辅音声纹识别模型,具体为:利用所述数据集对机器学习模型进行训练,其中机器学习模型以经过标准化后的语音段作为输入,以元音声纹、清辅音声纹、浊辅音声纹作为输出,通过监督学习得到元辅音声纹识别模型。
4.根据权利要求3所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所述s2中,所选择的机器学习模型为逻辑回归、线性判别分析、k近邻、朴素贝叶斯、支持向量机、随机森林、神经网络中的至少一种。
5.根据权利要求4所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所选择的机器学习模型为随机森林模型。
6.根据权利要求5所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所述s3中,元音声纹包括英语国际音标中20个元音音素的声纹。
7.根据权利要求6所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所述s3中,清辅音声纹括英语国际音标中11个清辅音音素的声纹。
8.根据权利要求7所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,所述s3中,清辅音声纹括英语国际音标中17个浊辅音音素的声纹。
9.根据权利要求8所述的一种基于自动声纹鉴定的声纹识别方法,其特征在于,s4、根据获取元音声纹、清辅音声纹、浊辅音声纹,识别出用户可发出所有字词的发音声纹,具体为:
10.根据权利要求1-9任意一项所述的一种基于自动声纹鉴定的声纹识别系统,其特征在于,包括数据集采集模块:用于大量的语音段组成数据集,且数据集中每一个样本包括语音段、元音声纹、清辅音声纹、浊辅音声纹四个指标数据;
技术总结本发明公开了一种基于自动声纹鉴定的声纹识别方法,包括以下步骤:S1,获取大量不同背景、不同人声的语音分割为特定长度的语音段,并将大量的语音段组成数据集,且数据集中每一个样本包括语音段、元音声纹、清辅音声纹、浊辅音声纹四个指标数据;S2,构建元辅音声纹识别模型;S3,用户需要识别的用户声纹的目标语音,将语音标准化后输入所述元辅音声纹识别模中,得到元音声纹、清辅音声纹、浊辅音声纹的结果。本发明可通过元辅音声纹识别模型自动鉴定出所有元音声纹、清辅音声纹、浊辅音声纹,然后再根据元音声纹、清辅音声纹、浊辅音声纹识别出用户可发出所有字词的发音声纹,提高了声纹识别结果的准确性。技术研发人员:李红普,李雨哲,王飞腾,李嘉琦,王飞旭,李雨健,李佳格受保护的技术使用者:李红普技术研发日:技术公布日:2024/2/29本文地址:https://www.jishuxx.com/zhuanli/20240618/22011.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。