技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、语音识别方法及相关设备与流程 > 正文

语音识别模型的训练方法、语音识别方法及相关设备与流程

国知局
2024-06-21 11:42:39

本申请涉及语音识别，特别是涉及一种语音识别模型的训练方法、语音识别方法及相关设备。

背景技术：

1、教师-学生模型是一种迁移学习方法，通过一个较复杂的教师模型指导一个较简单的学生模型来进行训练，可以使学生模型达到与教师模型接近的效果，来提高学生模型的性能。该方法通常可以应用在数据有限或计算资源有限的场景中，来实现对模型的压缩。

2、目前，教师-学生模型在计算机视觉、语音识别、自然语言处理等众多领域应用较为广泛。然而，如在语音识别领域，由于语音数据的音质不一等因素，会影响教师模型对学生模型的知识传递效果，从而，导致对语音识别的准确度低。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音识别模型的训练方法、语音识别方法及相关设备，能够提高训练后的语音识别模型进行语音识别的准确度。

2、为了解决上述问题，本申请第一方面提供了一种语音识别模型的训练方法，该方法包括：将第一语音样本数据和第二语音样本数据输入语音识别模型，其中，语音识别模型至少包含网络结构相同的语音识别教师网络和语音识别学生网络，语音识别教师网络用于接收第一语音样本数据，语音识别学生网络用于接收第二语音样本数据，第一语音样本数据为第一音质的语音数据，第二语音样本数据为第二音质的语音数据，第一音质高于第二音质；利用语音识别教师网络对第一语音样本数据进行处理，得到第一语音处理数据；以及，利用语音识别学生网络对第二语音样本数据进行处理，得到第二语音处理数据；基于第一语音处理数据和第二语音处理数据，调整语音识别模型的网络参数，得到训练后的语音识别模型。

3、为了解决上述问题，本申请第二方面提供了一种语音识别方法，该方法包括：获取待识别的语音数据；利用训练后的语音识别模型对所述待识别的语音数据进行处理，得到语音识别结果；其中，所述训练后的语音识别模型是利用实现上述语音识别模型的训练方法得到的。

4、为了解决上述问题，本申请第三方面提供了一种语音识别模型的训练装置，该语音识别模型的训练装置包括输入单元、处理单元和训练单元。输入单元用于将第一语音样本数据和第二语音样本数据输入语音识别模型，其中，语音识别模型至少包含网络结构相同的语音识别教师网络和语音识别学生网络，语音识别教师网络用于接收第一语音样本数据，语音识别学生网络用于接收第二语音样本数据，第一语音样本数据为第一音质的语音数据，第二语音样本数据为第二音质的语音数据，第一音质高于第二音质；处理单元用于利用语音识别教师网络对第一语音样本数据进行处理，得到第一语音处理数据；以及，利用语音识别学生网络对第二语音样本数据进行处理，得到第二语音处理数据；训练单元用于基于第一语音处理数据和第二语音处理数据，调整语音识别模型的网络参数，得到训练后的语音识别模型。

5、为了解决上述问题，本申请第四方面提供了一种语音识别装置，该语音识别装置包括获取单元和识别单元。获取单元用于获取待识别的语音数据；识别单元用于利用训练后的语音识别模型对待识别的语音数据进行处理，得到语音识别结果；其中，训练后的语音识别模型是实现上述语音识别模型的训练方法得到的。

6、为了解决上述问题，本申请第五方面提供了一种计算机设备，该计算机设备包括相互耦接的存储器和处理器，存储器中存储有程序数据，处理器用于执行程序数据以实现上述语音识别模型的训练方法、语音识别方法任一方法的任一步骤。

7、为了解决上述问题，本申请第六方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有能够被处理器运行的程序数据，程序数据用于实现上述语音识别模型的训练方法、语音识别方法任一方法的任一步骤。

8、上述方案，通过将不同音质的第一语音样本数据和第二语音样本数据输入语音识别模型，语音识别教师网络用于接收第一音质的第一语音样本数据，语音识别学生网络用于接收第二音质的第二语音样本数据，且第一音质高于第二音质，然后，利用语音识别教师网络对第一语音样本数据进行处理，得到第一语音处理数据；以及，利用语音识别学生网络对第二语音样本数据进行处理，得到第二语音处理数据；基于第一语音处理数据和第二语音处理数据，调整语音识别模型的网络参数，得到训练后的语音识别模型，采用模型网络结构相同、输入语音样本数据音质不同的方式进行训练，使得语音识别学生网络接近语音识别教师网络的识别效果，在维持语音识别教师网络的性能的情况下，压缩网络模型的参数量，且语音识别学生网络不仅可以学习到语音识别教师网络的知识，还不受限于语音识别教师网络的特征，由于输入语音样本数据音质不同，语音识别学生网络可以更好的学习到语音识别教师网络的知识，训练后的语音识别模型还能够对不同音质的语音数据进行识别，整体上提高训练后的语音识别模型进行语音识别的准确度和鲁棒性。

9、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

技术特征：

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将第一语音样本数据和第二语音样本数据输入语音识别模型之前，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音处理数据和所述第二语音处理数据，调整所述语音识别模型的网络参数，得到训练后的语音识别模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音处理数据和所述第二语音处理数据，调整所述语音识别模型的网络参数，得到训练后的语音识别模型，还包括：

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.一种语音识别方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述训练后的语音识别模型至少包含语音识别教师网络和/或语音识别学生网络；

10.一种语音识别模型的训练装置，其特征在于，包括：

11.一种语音识别装置，其特征在于，包括：

12.一种计算机设备，其特征在于，

13.一种计算机可读存储介质，其特征在于，

技术总结本申请公开了一种语音识别模型的训练方法、语音识别方法及相关设备。该方法包括：将第一语音样本数据和第二语音样本数据输入语音识别模型，语音识别模型至少包含网络结构相同的语音识别教师网络和语音识别学生网络，语音识别教师网络用于接收第一语音样本数据，语音识别学生网络用于接收第二语音样本数据；利用语音识别教师网络对第一语音样本数据进行处理，得到第一语音处理数据；以及，利用语音识别学生网络对第二语音样本数据进行处理，得到第二语音处理数据；基于第一语音处理数据和第二语音处理数据，调整语音识别模型的网络参数，得到训练后的语音识别模型。上述方案，能够提高训练后的语音识别模型进行语音识别的准确度。技术研发人员：胡今朝,吴重亮,马志强,李永超,吴明辉,方昕受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/17