语音识别方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:39:36
本申请涉及语音处理,具体涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术:
1、自动语音识别(automatic speech recognition:asr)技术是将输入语音数据转写为对应文本内容的核心技术;目前在电商、金融、物流等领域已经得到广泛应用。现有的自动语音识别场景中,自动语音识别模型仅支持单语种的语音识别任务,即一个自动语音识别模型仅能够识别某一个特定的语种。例如,中文自动语音识别模型只能用于中文语音识别,英文自动语音识别模型只能用于英文语音识别。随着自动语音识别技术应用的普及,采用一个自动语音识别模型来识别多个语种的需求日益迫切。通过将多个语种的自动语音识别模型统一成一个模型,能够降低模型迭代和维护成本,同时,能够避免因语种误判带来的识别错误。目前,针对多语种的语音识别方法的现有技术局限性较高,针对多语种的识别精度和可靠性较差。
技术实现思路
1、本申请实施例提供一种语音识别方法、装置、电子设备及存储介质,可以提高多语种语音识别的准确度。
2、第一方面,本申请提供一种语音识别方法,待识别语音序列包括第一帧语音,所述方法包括:
3、利用目标语音识别模型确定所述第一帧语音的声学嵌入向量;
4、利用所述目标语音识别模型确定所述第一帧语音对应的文本嵌入向量;
5、获取所述第一帧语音的语种嵌入向量;
6、根据所述声学嵌入向量、所述文本嵌入向量和所述语种嵌入向量,确定所述第一帧语音对应的第一文本信息。
7、在一些实施例中,所述利用目标语音识别模型确定所述第一帧语音的声学嵌入向量,包括:
8、利用所述目标语音识别模型确定所述第一帧语音的音频特征;
9、对所述音频特征进行编码得到所述第一帧语音的声学嵌入向量。
10、在一些实施例中,所述待识别语音序列包括第二帧语音,所述第一帧语音和所述第二帧语音为相邻的两帧语音,所述第二帧语音在所述第一帧语音之前;
11、所述利用所述目标语音识别模型确定所述第一帧语音对应的文本嵌入向量,包括:
12、获取所述第二帧语音对应的第二文本信息;
13、利用所述目标语音识别模型确定所述第二文本信息对应的文本特征;
14、根据所述文本特征和所述目标语音识别模型,确定所述第一帧语音对应的文本嵌入向量。
15、在一些实施例中,在利用目标语音识别模型确定所述第一帧语音的声学嵌入向量之前,所述方法还包括:
16、获取初始语音识别模型,所述初始语音识别模型中包括初始编码器;
17、训练所述初始编码器,得到第一语音识别模型,所述第一语音识别模型中包括训练后的第一编码器;
18、利用第一学习率对所述第一语音识别模型进行训练,得到第二语音识别模型;
19、利用第二学习率对所述第二语音识别模型进行训练,得到所述目标语音识别模型。
20、在一些实施例中,所述训练所述初始编码器,得到第一语音识别模型,包括:
21、获取语音识别训练样本,所述语音识别训练样本包括语音训练序列;
22、对所述语音训练序列进行标注,确定所述语音训练序列对应的第一音素标注;
23、利用所述初始编码器确定所述语音训练序列对应的声学嵌入训练向量;
24、确定所述声学嵌入训练向量对应的第二音素标注;
25、根据第一损失函数、所述第一音素标注和所述第二音素标注,调整所述初始编码器的参数,得到训练后的第一语音识别模型,所述第一语音识别模型中包括训练后的第一编码器。
26、在一些实施例中,所述第一语音识别模型中包括初始预测器和初始联合器;
27、所述利用第一学习率对所述第一语音识别模型进行训练,得到第二语音识别模型,包括:
28、固定所述第一编码器的编码器参数;
29、获取所述语音识别训练序列对应的训练文本;
30、利用第二损失函数、所述训练文本、所述语音识别训练序列和所述第一学习率对所述初始预测器和所述初始联合器进行训练,得到所述第二语音识别模型,所述第二语音识别模型包括训练后的第一编码器、第一预测器和第一联合器。
31、在一些实施例中,所述利用第二学习率对所述第二语音识别模型进行训练,得到所述目标语音识别模型,包括:
32、利用所述第二损失函数、所述训练文本、所述语音识别训练序列和第二学习率对所述第二语音识别模型进行训练,以调整所述第一编码器、所述第一预测器和所述第一联合器的参数,得到训练后的目标语音识别模型;
33、所述目标语音识别模型包括训练后的目标编码器、目标预测器和目标联合器。
34、第二方面,本申请实施例提供一种语音识别装置,所述语音识别装置包括:
35、声学嵌入向量确定模块,用于利用目标语音识别模型确定所述第一帧语音的声学嵌入向量;
36、文本嵌入向量确定模块,用于利用所述目标语音识别模型确定所述第一帧语音对应的文本嵌入向量;
37、语种嵌入向量确定模块,用于获取所述第一帧语音的语种嵌入向量;
38、文本预测模块,用于根据所述声学嵌入向量、所述文本嵌入向量和所述语种嵌入向量,确定所述第一帧语音对应的第一文本信息。
39、第三方面,本申请提供的电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,实现本申请所提供的语音识别方法中的步骤。
40、第四方面,本申请提供的计算机可读存储介质,存储有多条指令,该指令适于处理器进行加载,实现本申请所提供的语音识别方法中的步骤。
41、本申请提供一种语音识别方法、装置、电子设备及存储介质,所述方法包括利用目标语音识别模型确定第一帧语音的声学嵌入向量;利用目标语音识别模型确定第一帧语音对应的文本嵌入向量;获取第一帧语音的语种嵌入向量;根据声学嵌入向量、文本嵌入向量和语种嵌入向量,确定第一帧语音对应的第一文本信息。本申请提供的语音识别方法在语音识别时,结合语音对应的语种嵌入向量,在识别过程中考虑到语种的相关信息从而更加准确的识别出对应的文本信息,提高语音识别的精度;同时还可以利用同一个语音识别模型识别不同的语种,增加语音识别模型的适用场景。
技术特征:1.一种语音识别方法,其特征在于,待识别语音序列包括第一帧语音,所述方法包括:
2.根据权利要求1所述的语音识别方法,其特征在于,所述利用目标语音识别模型确定所述第一帧语音的声学嵌入向量,包括:
3.根据权利要求1所述的语音识别方法,其特征在于,所述待识别语音序列包括第二帧语音,所述第一帧语音和所述第二帧语音为相邻的两帧语音,所述第二帧语音在所述第一帧语音之前;
4.根据权利要求1所述的语音识别方法,其特征在于,在利用目标语音识别模型确定所述第一帧语音的声学嵌入向量之前,所述方法还包括:
5.根据权利要求4所述的语音识别方法,其特征在于,所述训练所述初始编码器,得到第一语音识别模型,包括:
6.根据权利要求5所述的语音识别方法,其特征在于,所述第一语音识别模型中包括初始预测器和初始联合器;
7.根据权利要求6所述的语音识别方法,其特征在于,所述利用第二学习率对所述第二语音识别模型进行训练,得到所述目标语音识别模型,包括:
8.一种语音识别装置,其特征在于,所述语音识别装置包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至7任一项所述的语音识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的语音识别方法中的步骤。
技术总结本申请提供一种语音识别方法、装置、电子设备及存储介质,所述方法包括利用目标语音识别模型确定第一帧语音的声学嵌入向量;利用目标语音识别模型确定第一帧语音对应的文本嵌入向量;获取第一帧语音的语种嵌入向量;根据声学嵌入向量、文本嵌入向量和语种嵌入向量,确定第一帧语音对应的第一文本信息。本申请提供的语音识别方法在语音识别时,结合语音对应的语种嵌入向量,在识别过程中考虑到语种的相关信息从而更加准确的识别出对应的文本信息,提高语音识别的精度;同时还可以利用同一个语音识别模型识别不同的语种,增加语音识别模型的适用场景。技术研发人员:郭一凡,刘亚明,田垚,单煜翔,索宏彬,万玉龙受保护的技术使用者:OPPO广东移动通信有限公司技术研发日:技术公布日:2024/3/27本文地址:https://www.jishuxx.com/zhuanli/20240618/22730.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表