技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、语音识别模型的训练方法和相关装置与流程 > 正文

一种语音识别方法、语音识别模型的训练方法和相关装置与流程

国知局
2024-06-21 11:46:31

本申请涉及语音，特别是涉及一种语音识别方法、语音识别模型的训练方法和相关装置。

背景技术：

1、语音识别技术是让计算机通过识别和理解人类语音来执行命令或完成任务的一种技术。随着技术的发展，语音识别技术也得到了迅速的普及和应用，语音识别技术已经广泛应用于多个领域，如智能家居、自动驾驶、智能客服等。

2、本申请的申请人在长期的研发过程中发现，现有的语音识别方法对一条语音切分得到的各个片段独立进行识别，识别的准确性仍然不能够满足需要。有鉴于此，如何提高语音识别的准确性，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音识别方法、语音识别模型的训练方法和相关装置，能够提高语音识别准确性。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别方法，该方法包括：获取若干关联子段的子段表示，其中，关联子段与当前子段之间存在关联关系，且均由目标语音切分得到；将各关联子段的子段表示与当前子段的第一子段特征进行融合，得到融合结果；对融合结果进行识别，得到当前子段的识别文本。

3、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别模型的训练方法，包括：获取若干关联样本子段的第一样本子段表示，关联样本子段与第一样本子段具有关联关系，且均为对同一第一样本语音切分得到；利用第一语音识别模型将第一样本子段的第一样本子段特征与若干关联样本子段的第一样本子段表示进行融合，得到样本融合结果；对样本融合结果进行识别，得到第一识别损失；基于第一识别损失，调整第一语音识别模型的模型参数。

4、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别装置，该装置包括：包括获取模块、融合模块和识别模块，获取模块用于获取若干关联子段的子段表示，其中，关联子段与当前子段之间存在关联关系，且均由目标语音切分得到；融合模块用于将各关联子段的子段表示与当前子段的第一子段特征进行融合，得到融合结果；识别模块用于对融合结果进行识别，得到当前子段的识别文本。

5、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别模型的训练装置，该装置包括获取模块、融合模块、识别模块和调整模块。获取模块用于获取若干关联样本子段的第一样本子段表示，关联样本子段与第一样本子段具有关联关系，且均为对同一第一样本语音切分得到；融合模块用于利用第一语音识别模型将第一样本子段的第一样本子段特征与若干关联样本子段的第一样本子段表示进行融合，得到样本融合结果；识别模块用于对样本融合结果进行识别，得到第一识别损失；调整模块用于基于第一识别损失，调整第一语音识别模型的模型参数。

6、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一语音识别方法或者语音识别模型的训练方法。

7、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任一语音识别方法或者语音识别模型的训练方法。

8、上述方案，对当前子段来说，将其关联子段的子段表示与第一子段特征进行融合，融合结果中既包含当前子段的特征，也融入了各个关联子段的特征。将融合结果作为识别的对象，以得到当前子段的识别文本，能够充分利用目标语音中关联的语音信息，来对当前子段进行识别，丰富了语音识别的依据，提升语音识别准确率。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取若干关联子段的子段表示包括：

3.根据权利要求2所述的方法，其特征在于，所述对目标特征进行第一编码，得到第一编码结果之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述第二子段特征包含所述关联子段包含的各音频帧的音频帧特征；所述第一预设特征与所述音频帧特征尺寸相同，和/或，所述第一预设特征拼接在首个所述音频帧特征之前。

5.根据权利要求2所述的方法，其特征在于，所述第二子段特征包含所述关联子段包含的各音频帧的音频帧特征，所述第二子段特征作为所述目标特征，所述第一编码结果包括各音频帧对应的第一编码特征；

6.根据权利要求5所述的方法，其特征在于，所述第一分类结果表征所述第一编码特征归属的预设类别，所述预设类别包括空白类别；所述预设要求为所述第一分类结果不为所述空白类别。

7.根据权利要求1所述的方法，其特征在于，所述将各所述关联子段的子段表示与当前子段的第一子段特征进行融合，得到融合结果包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述融合结果进行识别，得到所述当前子段的识别文本包括：

9.根据权利要求8所述的方法，其特征在于，所述第二编码结果包括各所述关联子段的子段表示、所述当前子段的第一子段特征分别对应的第二编码特征；

10.根据权利要求1所述的方法，其特征在于，所述当前子段的识别文本是至少利用第一语音识别模型得到，所述方法还包括如下步骤以对所述第一语音识别模型进行训练：

11.根据权利要求10所述的方法，其特征在于，所述获取若干关联样本子段的第一样本子段表示由第二语音识别模型执行，所述获取若干关联样本子段的第一样本子段表示之前，所述方法还包括如下步骤以对所述第二语音识别模型进行训练：

12.根据权利要求11所述的方法，其特征在于，所述基于各所述第二样本子段表示得到表示损失包括：

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

14.根据权利要求10所述的方法，其特征在于，所述基于所述样本融合结果进行识别，得到第一识别损失包括：

15.一种语音识别模型的训练方法，其特征在于，所述方法包括：

16.根据权利要求15所述的方法，其特征在于，所述获取若干关联样本子段的第一样本子段表示由第二语音识别模型执行，所述获取若干关联样本子段的第一样本子段表示之前，所述方法还包括如下步骤以对所述第二语音识别模型进行训练：

17.一种语音识别装置，其特征在于，所述装置包括：

18.一种语音识别模型的训练装置，其特征在于，所述装置包括：

19.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至14任一项或者权利要求15至16任一项所述的方法。

20.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至14任一项或者权利要求15至16任一项所述的方法。

技术总结本申请公开了一种语音识别方法、语音识别模型的训练方法和相关装置，该方法包括：获取若干关联子段的子段表示，其中，关联子段与当前子段之间存在关联关系，且均由目标语音切分得到；将各关联子段的子段表示与当前子段的第一子段特征进行融合，得到融合结果；对融合结果进行识别，得到当前子段的识别文本，上述方案，能够提高语音识别准确性。技术研发人员：胡今朝,吴重亮,李永超,吴明辉受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/24