一种语音分类方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:43:09
本申请涉及语音处理,尤其涉及一种语音分类方法、装置、电子设备及存储介质。
背景技术:
1、针对目前人工对语音数据进行分类的方案,该方案一般为人工逐一听语音数据的形式对语音数据中的信息进行鉴别,进而根据鉴别结果人工对语音数据进行分类,然而,面对大量语音数据时人工分类存在明显的低效问题,且由于人工对语音分类存在主观性,导致语音分类不统一。
技术实现思路
1、本申请实施例的主要目的在于提出一种语音分类方法、装置、电子设备及存储介质,以高效地对语音数据进行统一分类。
2、为实现上述目的,本申请实施例的一方面提出了一种语音分类方法,所述方法包括:
3、提取多条原始语音数据的语音特征;
4、将各条所述原始语音数据转换成对应的语音文本;
5、提取各个所述语音文本的特征作为文本特征;
6、将每一条所述原始语音数据对应的所述语音特征和所述文本特征进行融合,以提取得到对应的共有特征;
7、根据各个所述共有特征对各条所述原始语音数据进行分类。
8、在一些实施例中,在所述提取多条原始语音数据的语音特征之前,所述方法还包括:
9、对各条所述原始语音数据进行预处理;
10、所述提取多条原始语音数据的语音特征,包括:
11、提取经过预处理的各条所述原始语音数据的语音特征。
12、在一些实施例中,所述提取多条原始语音数据的语音特征,包括:
13、对各条所述原始语音数据进行离散傅里叶变换,得到对应的频谱信号;
14、利用梅尔滤波器获取各个所述频谱信号对应的梅尔频谱;
15、将各个所述梅尔频谱进行对数运算,并对所述对数运算的结果进行离散余弦变换,得到多个梅尔特征作为各个所述语音特征。
16、在一些实施例中,所述将各条所述原始语音数据转换成对应的语音文本,包括:
17、利用经过预先训练的自动语音识别模型提取各条所述原始语音数据的转换文本作为所述语音文本。
18、在一些实施例中,所述提取各个所述语音文本的特征作为文本特征,包括:
19、利用前馈神经网络和多层自注意力神经网络对每个所述语音文本进行上下文编码,得到对应的所述文本特征。
20、在一些实施例中,所述将每一条所述原始语音数据对应的所述语音特征和所述文本特征进行融合,以提取得到对应的共有特征,包括:
21、利用多层自注意力神经网络获取每一条所述原始语音数据对应的所述语音特征和所述文本特征之间的相关性信息;
22、根据所述相关性信息对所述每一条所述原始语音数据对应的所述语音特征和所述文本特征分别赋予权重;
23、根据所述权重将每一条所述原始语音数据对应的所述语音特征和所述文本特征进行融合,以提取得到对应的共有特征。
24、在一些实施例中,所述根据各个所述共有特征对各条所述原始语音数据进行分类,包括:
25、利用支持向量机分类器根据各个所述共有特征对各条所述原始语音数据进行分类。
26、为实现上述目的,本申请实施例的另一方面提出了一种语音分类装置,所述装置包括:
27、第一单元,用于提取多条原始语音数据的语音特征;
28、第二单元,用于将各条所述原始语音数据转换成对应的语音文本;
29、第三单元,用于提取各个所述语音文本的特征作为文本特征;
30、第四单元,用于将每一条所述原始语音数据对应的所述语音特征和所述文本特征进行融合,以提取得到对应的共有特征;
31、第五单元,用于根据各个所述共有特征对各条所述原始语音数据进行分类。
32、为实现上述目的,本申请实施例的另一方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
33、为实现上述目的,本申请实施例的另一方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
34、本申请实施例至少包括以下有益效果:
35、本申请提供一种语音分类方法、装置、电子设备及存储介质,该方案通过提取多条原始语音数据的语音特征;将各条原始语音数据转换成对应的语音文本;提取各个语音文本的特征作为文本特征;将每一条原始语音数据对应的语音特征和文本特征进行融合,以提取得到对应的共有特征;根据各个共有特征对各条原始语音数据进行分类。相较于现有技术采用人工听语音数据再对语音数据进行分类的方案,或将语音数据转换为语音文本再根据语音文本进行分类的方案,本申请实施例通过提取原始语音数据的语音特征和文本特征并融合提取得到共有特征,进而根据共有特征对原始语音数据进行分类,即本申请实施例充分结合了语音和文本之间的关联性对原始语音数据进行分析归类,解决了当前人工分类不统一的技术问题,而且基于统一的分类标准本申请实施例可以快速地对多条原始语音数据进行分类,不需要人工逐一分类,提高了分类效率。
技术特征:1.一种语音分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述提取多条原始语音数据的语音特征之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述提取多条原始语音数据的语音特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述将各条所述原始语音数据转换成对应的语音文本,包括:
5.根据权利要求1所述的方法,其特征在于,所述提取各个所述语音文本的特征作为文本特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述将每一条所述原始语音数据对应的所述语音特征和所述文本特征进行融合,以提取得到对应的共有特征,包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据各个所述共有特征对各条所述原始语音数据进行分类,包括:
8.一种语音分类装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
技术总结本申请公开一种语音分类方法、装置、电子设备及存储介质,方法包括:提取多条原始语音数据的语音特征;将各条原始语音数据转换成对应的语音文本;提取各个语音文本的特征作为文本特征;将每一条原始语音数据对应的语音特征和文本特征进行融合,以提取得到对应的共有特征;根据各个共有特征对各条原始语音数据进行分类。本申请可以充分结合语音特征和文本特征之间的关联性,将语音特征和文本特征之间的共有特征作为统一的分类标准,进而实现快速地对多条原始语音数据进行分类,提高了分类效率,可广泛应用于语音处理技术领域。技术研发人员:邓启志,李廷威,许东武受保护的技术使用者:广东万丈金数信息技术股份有限公司技术研发日:技术公布日:2024/4/17本文地址:https://www.jishuxx.com/zhuanli/20240618/23115.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表