一种用于提升语音外呼辨音准确率的声纹识别方法与流程
- 国知局
- 2024-06-21 11:32:16
本发明涉及语音识别,尤其涉及一种用于提升语音外呼辨音准确率的声纹识别方法。
背景技术:
1、随着人工智能技术和语音识别技术的不断发展和前进,在各个行业中,语音外呼及智能客服等领域得到了广泛应用。但是,由于人们的发音、语言口音、声音环境等因素的影响,语音外呼辨音准确率往往成为制约其应用效果的重要因素之一。
2、目前,市场上的语音识别技术主要基于声学模型和语言模型实现语音识别。而声纹识别技术则是通过分析人的声音特征来识别出说话者的身份信息。尽管声纹识别技术在安全认证、音乐唱腔分析等方面得到了广泛应用,但在语音外呼领域中,其准确率受多种因素的影响(如生理状态、噪声环境等),导致其应用效果不尽如人意。
技术实现思路
1、本发明的目的在于提供一种用于提升语音外呼辨音准确率的声纹识别方法,旨在解决现有的语音识别技术在语音外呼领域中的准确率较低的问题。
2、为实现上述目的,本发明提供了一种用于提升语音外呼辨音准确率的声纹识别方法,包括以下步骤:采集待识别语音信号,并对语音信号进行预处理,得到预处理信号。将所述预处理信号分帧,并对每一帧进行小波包变换,得到多个频带。对多个所述频带进行频域线性预测,以提取语音信号的谐波信息和声道信息,得到语音特征。将所述语音特征进行聚合,得到每个说话人的声纹特征。
3、其中,所述采集待识别语音信号,并对语音信号进行预处理,得到预处理信号,包括:在一个电话的发射器与另一电话的接收器之间连接滤波器。所述发射器将待识别语音信号经所述滤波器传输到所述接收器,所述滤波器通过自适应算法对所述待识别语音信号进行通信延迟降低,得到预处理信号。
4、其中,所述滤波器为高通滤波器。
5、其中,所述电话的通信频率范围为300hz-3400 hz。
6、其中,所述小波包变换是将信号分解成多个频带,每个频带内的信号具有相同的频率范围和时间分辨率,小波包变换可以在不同频带内对信号进行不同程度的平滑和细节提取。
7、其中,所述频域线性预测是一种基于自回归模型的声学分析方法,通过分析频带的频域特征来提取特征向量。
8、其中,所述通过分析频带的频域特征来提取特征向量,包括:将对每个频带进行自回归分析,并使用线性预测系数来表示所述频带的特征。
9、本发明的一种用于提升语音外呼辨音准确率的声纹识别方法,通过采集待识别语音信号,并对语音信号进行预处理,得到预处理信号。将所述预处理信号分帧,并对每一帧进行小波包变换,得到多个频带。对多个所述频带进行频域线性预测,以提取语音信号的谐波信息和声道信息,得到语音特征。将所述语音特征进行聚合,得到每个说话人的声纹特征,本发明提供了一种创新性的声纹特征提取方法,通过使用小波包变换、频域线性预测等技术,对语音信号进行高效、准确的特征提取。解决了现有的语音识别技术在语音外呼领域中的准确率较低的问题。
技术特征:1.一种用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,
3.如权利要求2所述的用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,
4.如权利要求2所述的用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,
5.如权利要求1所述的用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,
6.如权利要求1所述的用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,
7.如权利要求6所述的用于提升语音外呼辨音准确率的声纹识别方法,其特征在于,
技术总结本发明涉及语音识别技术领域,具体涉及一种用于提升语音外呼辨音准确率的声纹识别方法,包括采集待识别语音信号,并对语音信号进行预处理,得到预处理信号。将所述预处理信号分帧,并对每一帧进行小波包变换,得到多个频带。对多个所述频带进行频域线性预测,以提取语音信号的谐波信息和声道信息,得到语音特征。将所述语音特征进行聚合,得到每个说话人的声纹特征,本发明提供了一种创新性的声纹特征提取方法,通过使用小波包变换、频域线性预测等技术,对语音信号进行高效、准确的特征提取。解决了现有的语音识别技术在语音外呼领域中的准确率较低的问题。技术研发人员:周坤坤,丁卓受保护的技术使用者:南京龙垣信息科技有限公司技术研发日:技术公布日:2024/3/4本文地址:https://www.jishuxx.com/zhuanli/20240618/22074.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表