语音数据处理和语音识别的方法、服务器及存储介质与流程
- 国知局
- 2024-06-21 10:40:39
本申请涉及计算机技术,尤其涉及一种语音数据处理和语音识别的方法、服务器及存储介质。
背景技术:
1、随着人工智能技术的发展,现有的针对语音和文本的多模态预训练模型在语音处理任务中有着不错的表现。例如,speechgpt、viola和audiopalm等模型在语音处理任务表现出较好的性能,具体可以应用于自动语音识别(automatic speech recognition,简称asr)任务、语音到文本的翻译任务、语音到语音翻译任务、语音合成任务等语音处理任务。
2、目前使用传统的基于标注文本的交叉熵损失训练这些模型,对输入语音采用了损失屏蔽技术,没有明确地对语音标记之间的依赖关系建模,导致了训练数据的浪费,影响了语音处理的性能。
技术实现思路
1、本申请提供一种语音数据处理和语音识别的方法、服务器及存储介质,用以提升语音处理模型进行语音处理的性能。
2、第一方面,本申请提供一种语音数据处理方法,包括:
3、获取用于训练的语音样本及所述语音样本的目标语音标记;
4、将所述语音样本输入语音处理模型进行目标标记的预测,得到所述目标标记的预测结果,所述目标标记用于生成语音处理结果,所述目标标记至少包括目标语音标记;
5、对所述语音样本的目标语音标记的原始分布进行平滑处理,得到各所述目标语音标记的平滑分布;
6、根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息,训练所述语音处理模型的参数,获得训练完成的语音处理模型。
7、第二方面,本申请提供一种语音数据处理方法,包括:
8、接收端侧设备发送的语音处理请求,所述语音处理请求包含待处理的语音数据;
9、将所述语音数据输入语音处理模型进行目标标记预测,得到所述语音数据的目标标记,所述目标标记包括目标语音标记,其中所述语音处理模型通过第一方面所述的方法获得;
10、根据所述语音数据的目标标记生成语音处理结果,向所述端侧设备返回所述语音处理结果。
11、第三方面,本申请提供一种语音数据处理方法,包括:
12、获取用于训练的语音样本及所述语音样本的目标文本标记;
13、将语音样本输入语音处理模型,通过语音处理模型将所述语音样本转换为多个离散的输入语音标记,并根据输入语音标记进行目标标记的预测,得到所述目标标记的预测结果,所述目标标记包括目标文本标记和目标语音标记;
14、将所述语音样本的多个输入语音标记作为所述语音样本的多个目标语音标记,对所述语音样本的目标语音标记的原始分布进行平滑处理,得到各所述目标语音标记的平滑分布;
15、根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息,以及所述目标文本标记的预测结果,训练所述语音处理模型的参数,获得训练完成的语音处理模型。
16、第四方面,本申请提供一种语音识别方法,包括:
17、接收端侧设备发送的语音识别请求,所述语音识别请求包含待处理的语音数据;
18、将所述语音数据输入语音处理模型进行目标标记预测,得到目标文本标记,并根据所述目标文本标记生成语音识别结果,其中所述语音处理模型通过如第三方面所述的方法获得;
19、向所述端侧设备返回所述语音识别结果。
20、第五方面,本申请提供一种服务器,包括:
21、至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行前述任一方面所述的方法。
22、第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现前述任一方面所述的方法。
23、本申请提供的语音数据处理和语音识别的方法、服务器及存储介质,在语音处理模型的微调训练过程中,通过获取用于训练的语音样本及语音样本的目标语音标记,将语音样本输入语音处理模型进行目标标记的预测,得到目标标记的预测结果,并根据目标标记生成语音处理结果,目标标记至少包括目标语音标记;对语音样本的目标语音标记的原始分布进行平滑处理,得到各目标语音标记的平滑分布;根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息,训练语音处理模型的参数,可以有效地建模语音标记,使得语音处理模型能够更好地学习到语音标记之间的关联性,从而提高语音处理性能。
技术特征:1.一种语音数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取用于训练的语音样本及所述语音样本的目标语音标记,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息,训练所述语音处理模型的参数,包括:
4.根据权利要求1所述的方法,其特征在于,还包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述语音处理模型包括预训练的基座模型和解码模块,训练过程中固定所述基座模型的参数,训练所述解码模块的参数,
7.根据权利要求6所述的方法,其特征在于,还包括:
8.根据权利要求1-5中任一项所述的方法,其特征在于,所述获得训练完成的语音处理模型之后,还包括:
9.一种语音数据处理方法,其特征在于,包括:
10.一种语音数据处理方法,其特征在于,包括:
11.根据权利要求10所述的方法,其特征在于,所述获取用于训练的语音样本及所述语音样本的目标标记,包括:
12.根据权利要求10所述的方法,其特征在于,所述根据所述语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息,以及所述目标文本标记的预测结果,训练所述语音处理模型的参数,包括:
13.一种语音识别方法,其特征在于,包括:
14.一种服务器,其特征在于,包括:
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-13任一项所述的方法。
技术总结本申请提供一种语音数据处理和语音识别的方法、服务器及存储介质。本申请的方法,在语音处理模型的微调训练过程中,通过获取用于训练的语音样本及语音样本的目标语音标记,将语音样本输入语音处理模型进行目标标记的预测,得到目标标记的预测结果,并根据目标标记生成语音处理结果,目标标记至少包括目标语音标记;对语音样本的目标语音标记的原始分布进行平滑处理,得到各目标语音标记的平滑分布;根据语音样本的多个目标语音标记的平滑分布与预测结果间的相似度信息,训练语音处理模型的参数,可以有效地建模语音标记,使得语音处理模型能够更好地学习到语音标记之间的关联性,从而提高语音处理性能。技术研发人员:陈谦,王雯,张庆林,郑斯奇,张仕良,邓憧,马煜坤,于海,刘嘉庆,张冲受保护的技术使用者:杭州阿里云飞天信息技术有限公司技术研发日:技术公布日:2024/1/22本文地址:https://www.jishuxx.com/zhuanli/20240618/21130.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表