技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程 > 正文

语音识别方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:31:29

本技术涉及语音处理，具体涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术：

1、语音翻译能够将一种语言的口语输入转换为另一种语言的翻译文本的自动翻译技术。语音翻译技术可以帮助人们跨越语言障碍进行实时交流，适用于会议、商务洽谈、旅行交流等场景。此外，语音翻译还应用于多语种服务行业，提供更好的客户体验。它也用于语言学习，辅助听障者交流，并被智能设备和语音助手广泛采用。语音翻译技术的发展将进一步拓展其应用场景，促进国际交流与合作，为人们提供更便利的跨语言交流方式。

2、传统的语音翻译通常采用级联的方法，通过将自动语音识别(asr)模型和机器翻译(mt)模型顺序连接来实现，然而这种级联的方法可能会遭受高延迟、错误传播和大量参数等问题，且语音识别的精度不高。

技术实现思路

1、本技术实施例提供一种语音识别方法、装置、电子设备及存储介质，可以提高语音识别的准确度。

2、第一方面，本技术提供的语音识别方法，包括：获取初始多任务语音识别模型，所述初始多任务语音识别模型包括第一初始语音识别模型和第二初始语音识别模型；

3、利用所述初始多任务语音识别模型识别预设语音样本序列，得到所述第一初始语音识别模型识别的第一语音识别结果和所述第二初始语音识别模型识别的第二语音识别结果；

4、利用第一损失函数集合中的多个损失函数计算所述第一语音识别结果的第一模型损失，以及利用第二损失函数集合中的多个损失函数计算所述第二语音识别结果的第二模型损失；

5、利用所述第一模型损失和所述第二模型损失更新所述初始多任务语音识别模型，得到更新后的多任务语音识别模型；

6、利用更新后的多任务语音识别模型进行语音识别。

7、在一可选的实施例中，所述第一初始语音识别模型包括第一语音识别模块和第二语音识别模块，所述第二初始语音识别模型包括第三语音识别模块和第四语音识别模块；

8、所述利用所述初始多任务语音识别模型识别预设语音样本序列，得到所述第一初始语音识别模型对应的第一语音识别结果和所述第二初始语音识别模型对应的第二语音识别结果，包括：

9、利用所述第一语音识别模块识别所述预设语音样本序列，得到语音转录文本；

10、利用所述第二语音识别模块识别所述预设语音样本序列，得到第一翻译文本；

11、利用所述第三语音识别模块识别所述预设语音样本序列，得到第二翻译文本；

12、利用所述第四语音识别模块识别所述语音转录文本，得到第三翻译文本；

13、其中，所述第一语音识别结果包括所述语音转录文本和所述第一翻译文本，所述第二语音识别结果包括所述第二翻译文本和所述第三翻译文本。

14、在一可选的实施例中，所述第一损失函数集合中包括第一损失函数、第二损失函数、第三损失函数和第四损失函数；

15、所述利用第一损失函数集合计算所述第一语音识别结果的第一模型损失，以及利用第二损失函数集合计算所述第二语音识别结果的第二模型损失，包括：

16、利用所述第一损失函数计算所述语音转录文本的第三模型损失；

17、利用所述第二损失函数计算所述第一翻译文本的第四模型损失；

18、以所述第一初始语音识别模型为教师模型，所述第二初始语音识别模型为学生模型，利用所述第三损失函数计算所述第一初始语音识别模型和所述第二初始语音识别模型之间的第五模型损失；

19、利用所述第四损失函数计算所述语音转录文本和所述第一翻译文本之间的第六模型损失；

20、其中，所述第一模型损失包括所述第三模型损失、第四模型损失、第五模型损失和第六模型损失。

21、在一可选的实施例中，所述第二损失函数集合中包括第五损失函数、第六损失函数、第七损失函数和第八损失函数；

22、所述利用第一损失函数集合计算所述第一语音识别结果的第一模型损失，以及利用第二损失函数集合计算所述第二语音识别结果的第二模型损失，还包括：

23、利用所述第五损失函数计算所述第二翻译文本的第七模型损失；

24、利用所述第六损失函数计算所述第三翻译文本的第八模型损失；

25、以所述第一初始语音识别模型为学生模型，所述第二初始语音识别模型为教师模型，利用所述第七损失函数计算所述第一初始语音识别模型和所述第二初始语音识别模型之间的第九模型损失；

26、利用所述第八损失函数计算所述第二翻译文本和所述第三翻译文本之间的第十模型损失；

27、其中，所述第二模型损失包括所述第七模型损失、第八模型损失、第九模型损失和第十模型损失。

28、在一可选的实施例中，所述利用所述第一模型损失和所述第二模型损失更新所述初始多任务语音识别模型，得到更新后的多任务语音识别模型，包括：

29、根据所述第一模型损失计算所述第一初始语音识别模型中的第一梯度参数；

30、根据所述第二模型损失计算所述第二初始语音识别模型中的第二梯度参数；

31、根据所述第一梯度参数和所述第二梯度参数同时更新所述初始多任务语音识别模型的模型参数，得到更新后的多任务语音识别模型。

32、在一可选的实施例中，所述利用更新后的多任务语音识别模型进行语音识别，包括：

33、判断更新后的多任务语音识别模型的模型损失是否满足目标损失标准；

34、若更新后的多任务语音识别模型的模型损失满足所述目标损失标准，则利用更新后的多任务语音识别模型进行语音识别。

35、在一可选的实施例中，更新后的多任务语音识别模型包括第一语音识别模型和第二语音识别模型；

36、所述若更新后的多任务语音识别模型的模型损失满足目标模型损失标准，利用更新后的多任务语音识别模型进行语音识别，包括：

37、获取待识别的目标语音样本；

38、利用所述第二语音识别模型识别所述目标语音样本，得到所述目标语音样本对应的目标语音表示序列；

39、利用所述第二语音识别模型确定所述目标语音表示序列对应的目标语音文本的预测分布；

40、对所述目标语音文本的预测分布进行映射，得到所述目标语音样本的目标翻译文本。

41、第二方面，本技术提供的语音识别装置，包括：

42、模型获取模块，用于获取初始多任务语音识别模型，所述初始多任务语音识别模型包括第一初始语音识别模型和第二初始语音识别模型；

43、第一语音识别模块，用于利用所述初始多任务语音识别模型识别预设语音样本序列，得到所述第一初始语音识别模型识别的第一语音识别结果和所述第二初始语音识别模型识别的第二语音识别结果；

44、模型损失计算模块，用于利用第一损失函数集合中的多个损失函数计算所述第一语音识别结果的第一模型损失，以及利用第二损失函数集合中的多个损失函数计算所述第二语音识别结果的第二模型损失；

45、模型更新模块，用于利用所述第一模型损失和所述第二模型损失更新所述初始多任务语音识别模型，得到更新后的多任务语音识别模型；

46、第二语音识别模块，用于利用更新后的多任务语音识别模型进行语音识别。

47、第三方面，本技术提供的电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器用于运行存储器内的计算机程序，实现本技术所提供的语音识别方法中的步骤。

48、第四方面，本技术提供的计算机可读存储介质，存储有多条指令，该指令适于处理器进行加载，实现本技术所提供的语音识别方法中的步骤。

49、本技术实施例提供一种语音识别方法、装置、电子设备及存储介质，本技术提供的语音识别方法，利用包括第一初始语音识别模型和第二初始语音识别模型的初始多任务语音识别模型进行模型训练，同时在训练过程中利用多个不同的损失函数计算模型损失，利用多个模型损失同时更新初始多任务语音识别模型中的模型参数，得到训练后多任务语音识别模型。本技术实施例提供包括多个语音识别模型多的多任务语音识别模型，同时整合多个损失函数共同增强多任务语音识别模型的语音识别精度。