技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、系统、电子设备及存储介质与流程 > 正文

语音识别方法、装置、系统、电子设备及存储介质与流程

国知局
2024-06-21 11:46:21

本申请涉及语音识别，尤其涉及一种语音识别方法、装置、系统、电子设备及存储介质。

背景技术：

1、近年来，语音识别技术已经被广泛应用到社会的多个领域和场景中，极大地改善了人类的生活质量和习惯。然而，随着语音识别产品的应用场景和领域的增多，语音识别模型的部署和推理的开销成为很多企业的难题。

2、现有的技术方案为了保证在不同领域和场景的识别准确率，首先需要收集应用领域和场景的数据，然后这些数据被用来微调通用场景的模型来自适应不同的领域和场景，最后得到多个领域或者场景的模型。

3、如果按照上述方式训练多个领域或场景的模型然后分别部署在语音识别设备上，会增加部署成本开销，并且使得部署的模型繁多、设备架构臃肿。

技术实现思路

1、基于上述技术现状，本申请提出一种语音识别方法、装置、系统、电子设备及存储介质，能够以更轻量化的模型结构实现对不同类型语音的识别。

2、为了达到上述技术目的，本申请具体提出如下技术方案：

3、本申请第一方面提出一种语音识别方法，包括：

4、在待识别语音为第一类型的语音数据的情况下，通过加载了混合专家适配器模块的语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果；

5、其中，所述混合专家适配器模块包括多个专家模型，所述多个专家模型至少包括用于对所述第一类型的语音数据进行识别的专家模型。

6、在一些实现方式中，所述方法还包括：

7、在待识别语音为第二类型的语音数据的情况下，通过未加载所述混合专家适配器模块的所述语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果。

8、在一些实现方式中，所述加载了混合专家适配器模块的语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果的识别过程，包括：

9、提取所述待识别语音的语音特征；

10、基于所述待识别语音的语音特征，从所述混合专家适配器模块中，确定出适用于对所述待识别语音的语音特征进行处理的第一专家模型；

11、通过所述第一专家模型对所述待识别语音的语音特征进行处理，得到处理结果，所述处理结果用于确定对所述待识别语音的识别结果。

12、在一些实现方式中，在所述第一类型的语音数据包括降噪语音数据的情况下，所述用于对所述第一类型的语音数据进行识别的专家模型包括多个子专家模型，所述多个子专家模型分别用于对不同类型的降噪语音数据进行识别。

13、在一些实现方式中，所述多个子专家模型包括共享专家模型；

14、所述加载了混合专家适配器模块的语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果的识别过程，包括：

15、提取所述待识别语音的语音特征；

16、基于所述待识别语音的语音特征，从所述多个子专家模型中，确定出适用于对所述待识别语音的语音特征进行处理的第一子专家模型；

17、通过所述第一子专家模型对所述待识别语音的语音特征进行处理，得到第一处理结果，以及，通过所述共享专家模型对所述待识别语音的语音特征进行处理，得到第二处理结果；

18、对所述第一处理结果和所述第二处理结果进行融合，得到融合处理结果，所述融合处理结果用于确定对所述待识别语音的识别结果。

19、在一些实现方式中，所述语音识别模型至少通过对第二类型的语音数据进行识别训练得到；所述加载了混合专家适配器模块的语音识别模型通过固定除所述混合专家适配器模块之外的其他模型参数，并至少对所述第一类型的语音数据进行识别训练得到。

20、在一些实现方式中，对所述加载了混合专家适配器模块的语音识别模型的训练过程，包括：

21、获取第一类型的样本语音数据，以及获取与所述样本语音数据对应的文本标签；

22、将所述样本语音数据输入所述加载了混合专家适配器模块的语音识别模型，得到语音识别结果；

23、基于所述语音识别结果以及所述文本标签，确定语音识别损失；

24、基于所述语音识别损失，对所述混合专家适配器模块进行参数更新。

25、在一些实现方式中，所述混合专家适配器模块还包括路由子模块，所述路由子模块用于将待识别语音的语音特征路由至适用于对所述待识别语音的语音特征进行处理的专家模型。

26、本申请第二方面提出一种语音识别系统，包括：

27、混合专家适配器模块、语音识别模型，以及控制器；

28、所述控制器用于在待识别语音为第一类型的语音数据的情况下，控制所述语音识别模型加载所述混合专家适配器模块，以及，控制加载了所述混合专家适配器模块的所述语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果；

29、其中，所述混合专家适配器模块包括多个专家模型，所述多个专家模型至少包括用于对所述第一类型的语音数据进行识别的专家模型。

30、本申请第三方面提出一种语音识别装置，包括：

31、语音识别模块，用于在待识别语音为第一类型的语音数据的情况下，通过加载了混合专家适配器模块的语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果；

32、其中，所述混合专家适配器模块包括多个专家模型，所述多个专家模型至少包括用于对所述第一类型的语音数据进行识别的专家模型。

33、本申请第四方面提出一种电子设备，包括存储器和处理器；

34、所述存储器与所述处理器连接，用于存储程序；

35、所述处理器用于通过运行所述存储器中的程序，实现上述的语音识别方法。

36、本申请第五方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法。

37、本申请提出的语音识别方法构建了包含混合专家适配器模块的语音识别模型架构，基于该语音识别模型架构，能够实现对多种类型语音的识别。本申请所提出的方案能够基于同一套加载了混合专家适配器模块的语音识别模型架构，实现对多种类型的语音数据的识别，克服了常规的适配器自适应语音识别方案需要在待识别语音的类型发生变化时切换不同的适配器的弊端。

38、相对于直接构建混合专家模型用于适配多类型语音数据的识别，本申请技术方案能够降低训练量，尤其是避免重头训练带来的训练成本。另外，将混合专家技术应用于适配器，进而基于适配器来构建能够适用于对多种类型的语音数据进行识别的模型，相对于直接构建混合专家模型用于适配多类型语音数据的识别，能够适配更多种数据类型，提高了语音识别模型适配不同数据类型的扩展性。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述加载了混合专家适配器模块的语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果的识别过程，包括：

4.根据权利要求1所述的方法，其特征在于，在所述第一类型的语音数据包括降噪语音数据的情况下，所述用于对所述第一类型的语音数据进行识别的专家模型包括多个子专家模型，所述多个子专家模型分别用于对不同类型的降噪语音数据进行识别。

5.根据权利要求4所述的方法，其特征在于，所述多个子专家模型包括共享专家模型；

6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述语音识别模型至少通过对第二类型的语音数据进行识别训练得到；所述加载了混合专家适配器模块的语音识别模型通过固定除所述混合专家适配器模块之外的其他模型参数，并至少对所述第一类型的语音数据进行识别训练得到。

7.根据权利要求6所述的方法，其特征在于，对所述加载了混合专家适配器模块的语音识别模型的训练过程，包括：

8.根据权利要求1至5中任意一项所述的方法，其特征在于，所述混合专家适配器模块还包括路由子模块，所述路由子模块用于将待识别语音的语音特征路由至适用于对所述待识别语音的语音特征进行处理的专家模型。

9.一种语音识别系统，其特征在于，包括：

10.一种语音识别装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括存储器和处理器；

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至8中任意一项所述的语音识别方法。

技术总结本申请提出一种语音识别方法、装置、系统、电子设备及存储介质，该方法包括：在待识别语音为第一类型的语音数据的情况下，通过加载了混合专家适配器模块的语音识别模型对所述待识别语音进行识别，得到对所述待识别语音的识别结果；其中，所述混合专家适配器模块包括多个专家模型，所述多个专家模型至少包括用于对所述第一类型的语音数据进行识别的专家模型。上述方案能够以更轻量化的模型结构实现对不同类型语音的识别。技术研发人员：茆廷志,万根顺,高建清,潘嘉,刘聪,付中华受保护的技术使用者：西安讯飞超脑信息科技有限公司技术研发日：技术公布日：2024/4/24