技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别模型的训练方法、语音识别方法和相关装置与流程 > 正文

一种语音识别模型的训练方法、语音识别方法和相关装置与流程

国知局
2024-06-21 11:46:13

本申请涉及语音，特别是涉及一种语音识别模型的训练方法、语音识别方法和相关装置。

背景技术：

1、语音识别技术是让计算机通过识别和理解人类语音来执行命令或完成任务的一种技术。随着技术的发展，语音识别技术也得到了迅速的普及和应用，语音识别技术已经广泛应用于多个领域，如智能家居、自动驾驶、智能客服等。

2、端到端的语音识别模型表现出了良好的性能，能够实现语音的准确识别。本申请的申请人在长期的研发过程中发现，端到端的语音识别模型学习难度大，对训练数据的需求量较高，模型训练效率低。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音识别模型的训练方法、语音识别方法和相关装置，能够提高语音识别模型的训练效率。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别模型的训练方法，该方法包括：获取第一样本语音的第一样本语音特征；利用语音识别模型对第一样本语音特征进行多次编码处理，得到第一样本语音编码特征，其中，至少一次编码处理作为目标编码处理，目标编码处理得到的编码特征作为样本目标特征，其他编码处理得到的编码特征作为非样本目标特征，目标编码处理的输出特征为基于目标编码处理对应的样本分类特征得到，样本分类特征是对样本目标特征进行对应的目标建模单元的分类预测得到，其他编码处理的输出特征为非样本目标特征；对第一样本语音编码特征进行解码，得到第一样本语音对应的第一样本识别文本；基于第一样本识别文本和样本分类特征，调整语音识别模型的模型参数。

3、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别方法，包括：获取目标语音的语音特征；利用语音识别模型对语音特征进行多次编码处理，得到目标语音的语音编码特征；对语音编码特征进行解码，得到目标语音对应的识别文本，其中，语音识别模型为利用前述语音识别模型的训练方法得到的。

4、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别模型的训练装置，该装置包括：获取模块、编码模块、解码模块和调整模块，获取模块用于获取第一样本语音的第一样本语音特征；编码模块用于利用语音识别模型对第一样本语音特征进行多次编码处理，得到第一样本语音编码特征，其中，至少一次编码处理作为目标编码处理，目标编码处理得到的编码特征作为样本目标特征，其他编码处理得到的编码特征作为非样本目标特征，目标编码处理的输出特征为基于目标编码处理对应的样本分类特征得到，样本分类特征是对样本目标特征进行对应的目标建模单元的分类预测得到，其他编码处理的输出特征为非样本目标特征；解码模块用于对第一样本语音编码特征进行解码，得到第一样本语音对应的第一样本识别文本；调整模块用于基于第一样本识别文本和样本分类特征，调整语音识别模型的模型参数。

5、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别装置，该装置包括获取模块、编码模块和解码模块，获取模块用于获取目标语音的语音特征；编码模块用于利用语音识别模型对语音特征进行多次编码处理，得到目标语音的语音编码特征，其中，语音识别模型为利用前述语音识别模型的训练装置得到的；解码模块用于对语音编码特征进行解码，得到目标语音对应的识别文本。

6、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一语音识别模型的训练方法或者语音识别方法。

7、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任一语音识别模型的训练方法或者语音识别方法。

8、上述方案，在编码过程中，先引导模型利用目标建模单元进行建模，再得到以字为建模单元的结果，利用不同建模单元之间的依赖关系，降低学习难度，减少训练过程所需的数据量，提升训练效率。

技术特征：

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标建模单元为若干预设文本建模单元中的一者，不同所述预设文本建模单元的建模粒度不同；和/或，

3.根据权利要求2所述的方法，其特征在于，所述若干预设文本建模单元包括音素级建模单元、音节级建模单元、子词级建模单元、词级建模单元中的至少一者。

4.根据权利要求1所述的方法，其特征在于，所述利用语音识别模型对所述第一样本语音特征进行多次编码处理，得到第一样本语音编码特征，包括：

5.根据权利要求4所述的方法，其特征在于，确定所述目标编码处理的输出特征之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括多个顺序连接的编码模块、以及解码模块，其中，至少一个所述编码模块作为目标编码模块；利用所述第一样本语音完成所述语音识别模型的训练之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述样本文本生成对应的目标建模单元的模拟样本分类特征包括：

8.根据权利要求6所述的方法，其特征在于，在利用所述第一样本语音完成所述语音识别模型的训练之后，所述方法还包括：

9.一种语音识别方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述利用所述语音识别模型对所述语音特征进行多次编码处理，得到所述目标语音的语音编码特征包括：

11.根据权利要求9所述的方法，其特征在于，至少一次编码处理作为目标编码处理，所述目标编码处理得到的编码特征作为目标编码特征；所述对所述语音特征进行多次编码处理，得到所述目标语音的语音编码特征包括：

12.根据权利要求11所述的方法，其特征在于，所述基于所述目标分类特征得到所述目标编码处理的输出特征，包括：

13.一种语音识别模型的训练装置，其特征在于，所述装置包括：

14.一种语音识别装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至8任一项所述的语音识别模型的训练方法或权利要求9至12任一项所述的语音识别方法。

16.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至8任一项所述的语音识别模型的训练方法或权利要求9至12任一项所述的语音识别方法。

技术总结本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置，该方法包括：利用语音识别模型对第一样本语音特征进行多次编码处理，得到第一样本语音编码特征，其中，至少一次编码处理作为目标编码处理，目标编码处理得到的编码特征作为样本目标特征，目标编码处理的输出特征为基于目标编码处理对应的样本分类特征得到，样本分类特征是对样本目标特征进行对应的目标建模单元的分类预测得到，对第一样本语音编码特征进行解码，得到第一样本语音对应的第一样本识别文本；基于第一样本识别文本和样本分类特征，调整语音识别模型的模型参数，能够提升语音识别模型的训练效率。技术研发人员：杨阳,程磊,朱家泉,蔡旭浦,陆海俊受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/24