音频数据处理方法、装置、电子设备及可读存储介质与流程
- 国知局
- 2024-06-21 11:42:16
本申请涉及人工智能,具体涉及一种音频数据处理方法、装置、电子设备及可读存储介质。
背景技术:
1、随着人工智能的不断发展,基于深度学习对不同的数据进行识别以达到智能识别效果成为一项技术热点。在对音频、图像等数据进行识别之前往往需要获取大量的包括待识别数据与识别结果的训练数据对识别模型进行训练,以得到能够准确识别数据的识别模型。然而,为了获得识别准确性高的识别模型,需要获取大量质量高的训练数据对识别模型进行训练。因此,如何对模型进行训练得到高质量的识别模型成为一项亟待解决的技术问题。
技术实现思路
1、本申请实施例提供一种音频数据处理方法、装置、电子设备及可读存储介质,可以获取高质量的训练数据,以提升识别模型的质量。
2、第一方面,本申请实施例公开了一种音频数据处理方法,包括:
3、获取目标训练数据集;其中,所述目标训练数据集包括第一训练数据集和第二训练数据集,所述第二训练数据集为对所述第一训练数据集进行掩码处理后的数据集;
4、将所述目标训练数据集输入初始识别模型,以确定所述目标训练数据集中每条语音数据对应的多个特征值和/或每两条语音数据之间的多个后验概率;
5、根据所述多个特征值构造第一损失函数;和/或
6、根据所述每两条语音数据之间的多个后验概率确定第二损失函数;
7、根据所述第一损失函数和/或所述第二损失函数确定目标损失函数;
8、根据所述目标损失函数确定目标识别模型;
9、基于所述目标识别模型对不同语种的音频数据进行识别,以确定语音数据的目标语种。
10、第二方面,本申请实施例公开了一种音频数据处理装置,包括:
11、获取单元,用于获取目标训练数据集;其中,所述目标训练数据集包括第一训练数据集和第二训练数据集,所述第二训练数据集为对所述第一训练数据集进行掩码处理后的数据集;
12、第一确定单元,用于将所述目标训练数据集输入初始识别模型,以确定所述目标训练数据集中每条语音数据对应的多个特征值和/或确定每两条语音数据之间的多个后验概率;
13、第一构造单元,用于根据所述多个特征值构造第一损失函数;
14、第二构造单元,用于根据所述每两条语音数据之间的多个后验概率构造第二损失函数;
15、加权单元,用于根据所述第一损失函数和/或所述第二损失函数确定目标损失函数;
16、第二确定单元,用于根据所述目标损失函数确定目标识别模型;
17、识别单元,用于基于所述目标识别模型对不同语种的音频数据进行识别,以确定语音数据的目标语种。
18、第三方面,本申请实施例公开了一种电子设备,该电子设备包括处理器和存储器,存储器存储有计算机程序,处理器调用计算机程序实现上述的音频数据处理方法。
19、第四方面,本申请实施例公开了一种计算机可读存储介质,该计算机可读存储介质中存储有程序代码,程序代码可被处理器调用实现上述的音频数据处理方法。
20、第五方面,本申请实施例公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。
21、本申请实施例中,可以通过获取目标训练数据集;其中,该目标训练数据集包括第一训练数据集和第二训练数据集,该第二训练数据集为对第一训练数据集进行掩码处理后的数据集;将目标训练数据集输入初始识别模型,以确定目标训练数据集中每条语音数据对应的多个特征值和/或每两条语音数据之间的多个后验概率;根据多个特征值构造第一损失函数;和/或根据每两条语音数据之间的多个后验概率确定第二损失函数;根据第一损失函数和/或第二损失函数确定目标损失函数;根据目标损失函数确定目标识别模型。以此,通过对目标训练数据集输入初始识别模型确定多个特征值以及多个后验概率,以循环使用的方法提高了目标训练数据集的利用率,从多个维度提取训练数据的特征数据增加了训练数据集的可用信息,提升了训练数据的数据质量。此外,根据多个特征值确定第一损失函数,根据多个后验概率确定第二损失函数。根据第一损失函数和第二损失函数计算目标损失函数以确定目标识别模型,提升了基于优质训练数据训练得到的目标识别模型的质量,提升后续目标识别模型进行识别的准确性。
技术特征:1.一种音频数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述获取目标训练数据集包括:
3.如权利要求2所述的方法,其特征在于,所述对所述第一训练数据集中的每条语音数据进行掩码处理,得到第二训练数据集包括:
4.如权利要求1所述的方法,其特征在于,所述确定所述目标训练数据集中每条语音数据对应的多个特征值包括:
5.如权利要求4所述的方法,其特征在于,所述根据所述多个特征值构造第一损失函数,包括:
6.如权利要求1所述的方法,其特征在于,所述目标训练数据集包括进行掩码处理的多条语音数据和未进行掩码处理的多条语音数据,所述确定每两条语音数据之间的多个后验概率包括:
7.如权利要求1的方法,其特征在于,所述根据所述第一损失函数和/或所述第二损失函数确定目标损失函数包括:
8.一种音频数据处理装置,其特征在于,所述音频数据处理装置包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述计算机程序实现如权利要求1-7任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质可以是计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序或计算机指令,当所述计算机程序或所述计算机指令被处理器运行时,实现如权利要求1-7任一项所述的方法。
技术总结本申请公开了一种音频数据处理方法、装置、电子设备及可读存储介质,该方法通过获取目标训练数据集;将目标训练数据集输入初始识别模型,以确定目标训练数据集中每条语音数据对应的多个特征值和/或每两条语音数据之间的多个后验概率;根据多个特征值构造第一损失函数;和/或根据每两条语音数据之间的多个后验概率确定第二损失函数;根据第一损失函数和/或第二损失函数确定目标损失函数;根据目标损失函数确定目标识别模型;基于目标识别模型对不同语种的音频数据进行识别,以确定语音数据的目标语种。以此,提升了训练数据的数据质量以及基于优质训练数据训练得到的目标识别模型的质量,提升了后续目标识别模型进行识别的准确性。技术研发人员:郑颖龙,吴广财,唐乐,陈非,马春受保护的技术使用者:南方电网数字电网集团有限公司广东分公司技术研发日:技术公布日:2024/4/17本文地址:https://www.jishuxx.com/zhuanli/20240618/23033.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表