年龄识别方法、装置、电子设备和存储介质与流程
- 国知局
- 2024-06-21 10:41:18
本发明涉及语音识别,尤其涉及一种年龄识别方法、装置、电子设备和存储介质。
背景技术:
1、基于音频的性别年龄识别技术是一种将声音信号转换为性别和年龄信息的技术。这项技术在很多领域都有广泛的应用,如智能客服、语音助手、安防监控等。当前对于说话人性别年龄分类主与声纹识别技术类似,主要是通过构建单一的说话人年龄识别模型,进行说话人年龄识别。
2、但是由于说话人的语音特征与年龄的关系较复杂,基于单一的说话人年龄识别模型得到的年龄分类的准确度都不太高。
技术实现思路
1、本发明提供一种年龄识别方法、装置、电子设备和存储介质,用以解决现有技术中得到的年龄分类的准确度都不太高的缺陷。
2、本发明提供一种年龄识别方法,包括:
3、获取待识别语音;
4、基于年龄识别模型中的主干网络,提取所述待识别语音的说话人特征,所述主干网络基于说话人识别模型确定;
5、基于年龄识别模型中的分类网络,确定所述说话人特征对应说话人年龄的识别结果。
6、根据本发明提供的一种年龄识别方法,所述基于年龄识别模型中的分类网络,确定所述说话人特征对应说话人年龄的识别结果,之后还包括:
7、基于历史语音的年龄标签以及所述历史语音的对应说话人年龄的历史概率分布,得到预测偏向年龄段;
8、基于所述预测偏向年龄段,对所述识别结果中各年龄段的概率分布进行调整,得到调整后的概率分布;
9、基于所述调整后的概率分布,确定所述待识别语音对应的说话人年龄。
10、根据本发明提供的一种年龄识别方法,所述年龄识别模型的训练步骤包括:
11、获取说话人识别模型,将所述说话人识别模型中的用于提取说话人特征的网络确定为所述主干网络;
12、基于所述主干网络和初始分类网络,对样本语音进行年龄识别,得到所述样本语音对应说话人年龄的预测结果;
13、基于所述预测结果,以及所述样本语音的年龄标签,确定识别损失,并基于所述识别损失对所述初始分类网络进行参数迭代,得到所述分类网络。
14、根据本发明提供的一种年龄识别方法,所述基于所述主干网络和初始分类网络,对样本语音进行年龄识别,得到所述样本语音对应说话人年龄的预测结果,包括:
15、对样本语音进行随机掩码,得到掩码语音;
16、基于所述主干网络和初始分类网络,对所述掩码语音进行年龄识别,得到所述样本语音对应说话人年龄的预测结果。
17、根据本发明提供的一种年龄识别方法,所述基于所述预测结果,以及所述样本语音的年龄标签,确定识别损失,包括:
18、对所述样本语音的年龄标签进行平滑处理,得到所述样本语音的平滑标签;
19、基于所述预测结果,以及所述平滑标签,确定识别损失。
20、根据本发明提供的一种年龄识别方法,所述基于所述识别损失对所述初始分类网络进行参数迭代,包括:
21、基于所述识别损失,对所述初始分类网络中各类型的参数执行对应类型下的预设参数迭代规则;
22、所述参数的类型是基于所述参数与所述参数的参数传播梯度确定的。
23、根据本发明提供的一种年龄识别方法,所述年龄标签是基于所述样本语音的听感年龄确定的。
24、本发明还提供一种年龄识别装置,包括:
25、获取单元,获取待识别语音;
26、提取单元,基于年龄识别模型中的主干网络,提取所述待识别语音的说话人特征,所述主干网络基于说话人识别模型确定;
27、识别单元,基于年龄识别模型中的分类网络,确定所述说话人特征对应说话人年龄的识别结果。
28、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述年龄识别方法。
29、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述年龄识别方法。
30、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述年龄识别方法。
31、本发明提供的年龄识别方法、装置、电子设备和存储介质,通过成熟的说话人识别模型的主干网络作为年龄识别模型中的主干网络,提取说话人特征,并基于年龄识别模型中的分类网络,确定说话人特征对应说话人年龄的识别结果,实现了基于可靠且大规模的成熟模型的主干网络,得到年龄识别模型中的主干网络,提升了年龄识别模型提取说话人特征的准确性,进而大大提升了说话人年龄的识别结果的准确性。同时,也缩短了年龄识别模型的训练时间和所需样本数据量。
技术特征:1.一种年龄识别方法,其特征在于,包括:
2.根据权利要求1所述的年龄识别方法,其特征在于,所述基于年龄识别模型中的分类网络,确定所述说话人特征对应说话人年龄的识别结果,之后还包括:
3.根据权利要求1至2中任一项所述的年龄识别方法,其特征在于,所述年龄识别模型的训练步骤包括:
4.根据权利要求3所述的年龄识别方法,其特征在于,所述基于所述主干网络和初始分类网络,对样本语音进行年龄识别,得到所述样本语音对应说话人年龄的预测结果,包括:
5.根据权利要求3所述的年龄识别方法,其特征在于,所述基于所述预测结果,以及所述样本语音的年龄标签,确定识别损失,包括:
6.根据权利要求3所述的年龄识别方法,其特征在于,所述基于所述识别损失对所述初始分类网络进行参数迭代,包括:
7.根据权利要求3所述的年龄识别方法,其特征在于,所述年龄标签是基于所述样本语音的听感年龄确定的。
8.一种年龄识别装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述年龄识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述年龄识别方法。
技术总结本发明提供一种年龄识别方法、装置、电子设备和存储介质,方法包括:获取待识别语音;基于年龄识别模型中的主干网络,提取待识别语音的说话人特征,主干网络基于说话人识别模型确定;基于年龄识别模型中的分类网络,确定说话人特征对应说话人年龄的识别结果。本发明提供的方法、装置,通过成熟的说话人识别模型的主干网络作为年龄识别模型中的主干网络,提取说话人特征,并基于年龄识别模型中的分类网络,确定说话人特征对应说话人年龄的识别结果,实现了基于可靠且大规模的成熟模型的主干网络,得到年龄识别模型中的主干网络,提升了年龄识别模型提取说话人特征的准确性,进而大大提升了说话人年龄的识别结果的准确性。技术研发人员:杜海嘉,高天受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/1/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21216.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表