语音识别模型的构建方法、构建装置、电子设备、存储介质及语音识别方法与流程
- 国知局
- 2024-06-21 11:49:29
本发明涉及语音识别模型,尤其是涉及一种语音识别模型的构建方法、语音识别方法、语音识别模型构建装置及电子设备、存储介质。
背景技术:
1、当前市场中的语音识别方案,大多都是针对普通的语音数据进行识别,很少有针对振铃音方案的分类识别方法,尤其是在诸多产品中,其诸多的未接通电话,由于存在数据量巨大,识别成本高等因素,导致无法使用常规语音识别方法进行识别,无法有效的区分出振铃音类型,使得产品无法定位客户情况。例如在实际产品中,其未接通的电话数据量巨大,而其内容又是经常听到的振铃音语音,例如“您好,您所拨打的号码已关机。”等等,如果使用正常语音识别方案进行识别,不仅面临数据量大,识别效率低,还面临语音识别成本高,以及需要另外增加文本识别方案,更进一步的增加了使用成本和复杂度。
2、当前市场上处理该类型的语音数据,其主要的技术手段为语音识别技术,该技术虽然能有效的进行振铃音识别,但是其对运行环境和设备有着较高的要求,且其运行效率较低,在面临大规模的数据应用时,其识别速度往往是很难跟上使用需求的。虽然也有类似的优化手段,如使用普通的语音分类识别的技术,但是其方案主要是采用卷积等方案实现,虽然在效率上有着明显的提升,但是仍然很难满足需求。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种语音识别模型的构建方法、语音识别方法、语音识别模型构建装置及电子设备、存储介质。
2、第一方面,本发明实施例提供了一种语音识别模型的构建方法,所述方法包括:
3、获取初始样本;
4、将所述初始样本划分为训练集和验证集;
5、针对所述训练集中的每一条训练数据,对所述训练数据进行梅尔频谱特征提取,得到所述训练数据对应的第一特征;
6、将全部的所述第一特征输入初始语音识别模型中的特征处理模块,以对所述特征处理模块进行训练,其中,所述初始语音识别模型为将albert模型中用于文本处理的embedding模块替换为特征处理模块并在解码器之后增加全连接层后得到的;所述特征处理模块用于将全部的所述第一特征进行特征归一化处理,得到第二特征;
7、将所述第二特征输入初始语音识别模型中的编码器,依次对所述编码器、所述解码器和所述全连接层进行训练,输出训练结果;
8、根据所述验证集对所述训练结果进行验证,并计算所述初始语音识别模型的损失函数;
9、根据所述损失函数优化所述初始语音识别模型,直至所述损失函数小于预设值,得到语音识别模型;
10、所述语音识别模型用于对输入的语音数据的梅尔频谱特征进行识别。
11、结合第一方面,对所述训练数据进行梅尔频谱特征提取,得到所述训练数据对应的第一特征的步骤,包括:
12、将所述训练数据进行频域转换,并计算频域信息;
13、根据所述频域信息计算梅尔滤波器的能量;
14、根据所述梅尔滤波器的能量,计算所述训练数据的梅尔频谱特征。
15、结合第一方面,对所述训练数据进行梅尔频谱特征提取的步骤之前,还包括:
16、根据预设的处理规则,对所述训练数据进行预处理以滤除静音段。
17、第二方面,本技术提供一种语音识别方法,所述方法包括:
18、获取采样时间段内的初始数据;所述初始数据包括多条待识别语音数据;
19、将多条所述待识别语音数据分配至多个进程,得到每个进程对应的第一数据;
20、针对每个所述进程,提取所述进程对应的所述第一数据的梅尔频谱特征;
21、将所述梅尔频谱特征输入预先训练的语音识别模型,输出第一识别结果;
22、对全部的所述第一识别结果进行统计,得到目标结果并储存;
23、其中,所述语音识别模型为基于上述的语音识别模型的构建方法构建得到的。
24、结合第二方面,所述初始数据还包括存储路径列表,所述存储路径列表中的每个存储路径对应于一条待识别语音数据;
25、将多条所述待识别语音数据分配至多个进程,得到每个进程对应的第一数据的步骤,包括:
26、获取所述存储路径列表;
27、根据预设的配置信息对所述存储路径列表进行分割,得到多个存储路径组;所述配置信息包括进程数量和/或单个所述进程可执行的数据量;
28、针对每个存储路径组,将所述存储路径组中所有存储路径对应的待识别语音数据分配至同一进程,得到所述进程对应的第一数据。
29、结合第二方面,所述配置信息还包括:特征执行批次数量或单批次的特征数量;
30、将所述梅尔频谱特征输入预先训练的语音识别模型,输出第一识别结果的步骤,包括:
31、根据特征执行批次数量和/或单批次的特征数量,对所述梅尔频谱特征进行数据分割,得到每个批次对应的第三特征;
32、针对每一个批次,将所述批次对应的第三特征输入预先训练的所述语音识别模型,得到所述批次对应的第二识别结果。
33、结合第二方面,将所述梅尔频谱特征输入预先训练的语音识别模型,输出第一识别结果的步骤之后,还包括:
34、将所述第一识别结果上传至所述进程对应的链接中。
35、第三方面,本技术提供一种语音识别模型的构建方法,所述装置包括:
36、获取模块,用于获取初始样本;
37、划分模块,用于将所述初始样本划分为训练集和验证集;
38、特征提取模块,用于针对所述训练集中的每一条训练数据,对所述训练数据进行梅尔频谱特征提取,得到所述训练数据对应的第一特征;
39、特征归一化处理模块,用于将全部的所述第一特征输入初始语音识别模型中的特征处理模块,以对所述特征处理模块进行训练,其中,所述初始语音识别模型为将albert模型中用于文本处理的embedding模块替换为特征处理模块并在解码器之后增加全连接层后得到的;所述特征处理模块用于将全部的所述第一特征进行特征归一化处理,得到第二特征;
40、训练输出模块,用于将所述第二特征输入初始语音识别模型中的编码器,依次对所述编码器、解码器和全连接层进行训练,输出训练结果;
41、损失函数计算模块,用于根据所述验证集对所述训练结果进行验证,并计算所述初始语音识别模型的损失函数;
42、优化构建模块,用于根据所述损失函数优化所述初始语音识别模型,直至所述损失函数小于预设值,得到语音识别模型;所述语音识别模型用于对输入的语音数据的梅尔频谱特征进行识别。
43、第四方面,本技术提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的语音识别模型的构建方法。
44、第五方面,本技术提供一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述的语音识别模型的构建方法。
45、本发明实施例带来了以下有益效果:本技术提供一种语音识别模型的构建方法、语音识别方法、语音识别模型构建装置及电子设备、存储介质,所述语音识别模型基于albert模型进行改进后经多次训练得到的,将albert模型中用于文本处理的embedding模块替换为特征归一化模块,利于对输入的语音数据的梅尔频谱特征收敛,以实现通过梅尔频谱特征进行语音识别;此外在解码器之后增加全连接层,以实现直接通过模型进行语音类型的识别,从而可以实现铃音类别识别。
46、本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
47、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23776.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表