技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、语音识别方法和相关装置与流程 > 正文

语音识别模型的训练方法、语音识别方法和相关装置与流程

国知局
2024-06-21 11:37:00

本申请涉及语音识别，特别是涉及一种语音识别模型的训练方法、语音识别方法和相关装置。

背景技术：

1、语音识别任务是将音频信号转换为其平行抄本，该技术广泛应用在人机交互、会议记录、智能家居等场景中。音频识别分为短音频语音识别和长音频语音识别。其中短音频语音识别的使用场景往往涉及单个说话人的一两句话；而长音频语音识别通常包含多个说话人和多个音频采集通道，说话的风格比较自由，持续时间较长。相较于短音频识别，长音频识别更具挑战性。其中，如何提高音频识别，特别是长音频识别的准确性意义重大。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音识别模型的训练方法、语音识别方法和相关装置，能够提高语音识别的准确性。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别模型的训练方法，该方法包括：获取若干样本音频段；利用语音识别模型分别对各样本音频段进行特征提取，得到各样本音频段的音频特征和至少一个场景特征，场景特征用于表征样本音频段的说话人、采集通道和所属音频源中的至少一者的信息；利用语音识别模型至少基于各样本音频段的音频特征，得到各样本音频段的样本识别文本；基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度，调整语音识别模型。

3、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别方法，该方法包括：获取待识别音频数据；将待识别音频数据切分为多个目标音频段；利用语音识别模型分别对各目标音频段进行识别，得到各目标音频段的识别文本，其中，语音识别模型是利用上述语音识别模型的训练方法训练得到；综合各目标音频段的识别文本，得到待识别音频数据的识别文本。

4、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别模型的训练装置，该装置包括：第一获取模块，用于获取若干样本音频段；特征提取模块，用于利用语音识别模型分别对各样本音频段进行特征提取，得到各样本音频段的音频特征和至少一个场景特征，场景特征用于表征样本音频段的说话人、采集通道和所属音频源中的至少一者的信息；第一识别模块，用于利用语音识别模型至少基于各样本音频段的音频特征，得到各样本音频段的样本识别文本；调整模块，用于基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度，调整语音识别模型。

5、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别装置，该装置包括：第二获取模块，用于获取待识别音频数据；切分模块，用于将待识别音频数据切分为多个目标音频段；第二识别模块，用于利用语音识别模型分别对各目标音频段进行识别，得到各目标音频段的识别文本，其中，语音识别模型是利用上述语音识别模型的训练方法训练得到；文本综合模块，用于综合各目标音频段的识别文本，得到待识别音频数据的识别文本。

6、为解决上述技术问题，本申请采用的再一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述方法。

7、为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，用于存储程序指令，该程序指令能够被执行以实现上述方法。

8、上述方法，在利用语音识别模型分别对各样本音频段进行特征提取，得到各样本音频段的音频特征和至少一个场景特征后，利用语音识别模型至少基于各样本音频段的音频特征，得到各样本音频段的样本识别文本；然后基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度，调整语音识别模型。本申请是利用样本识别文本和标注文本之间的文本差异和各样本音频段的场景特征之间的特征相似度，调整语音识别模型，相比于只利用文本差异调整语音识别模型的方式，本申请上述语音识别模型的调整方式还能够结合各样本音频段场景特征之间的特征相似度进行模型调整，由于场景特征之间相似度的准确性和提取的特征的质量密切相关，故结合场景特征之间的特征相似度进行模型训练，能够提高语音识别模型的特征提取能力，进而能够提高语音识别的准确性。

技术特征：

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述样本音频段的至少一个场景特征包括以下至少一者：表征所述样本音频段中的主要说话人的说话人特征、表征所述样本音频段的采集通道的通道特征、以及表征所述样本音频段所来自的音频数据的音频源特征。

3.根据权利要求1所述的方法，其特征在于，所述至少基于各所述样本音频段的音频特征，得到各所述样本音频段的样本识别文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述样本音频段包括至少一个通道音频，所述样本音频段的音频特征包括至少一个通道音频分别对应的通道音频特征，所述样本音频段的每个场景特征均包括所述至少一个通道音频分别对应的通道场景特征；

5.根据权利要求4所述的方法，其特征在于，所述将所述通道音频对应的通道音频特征和所述通道音频对应的各通道场景特征进行融合，得到通道融合特征，包括：

6.根据权利要求4所述的方法，其特征在于，所述通道音频对应的通道注意力特征包括与所述音频特征对应的音频通道注意力特征和分别与各所述场景特征对应的场景通道注意力特征；其中，

7.根据权利要求1所述的方法，其特征在于，所述基于所述样本识别文本和所述样本音频段的标注文本之间的文本差异、以及各所述样本音频段的场景特征之间的特征相似度，调整所述语音识别模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述样本音频的场景特征包括：表征所述样本音频中的主要说话人的说话人特征、表征所述样本音频的采集通道的通道特征、以及表征所述样本音频段所来自的音频数据的音频源特征，各所述场景特征的对比学习损失包括说话人特征的对比学习损失、通道特征的对比学习损失和音频源特征的对比学习损失；

9.根据权利要求1所述的方法，其特征在于，所述获取若干样本音频段，包括：

10.根据权利要求9所述的方法，其特征在于，所述分别对各所述样本音频数据进行切分，得到各所述样本音频数据对应的多个音频段，包括：

11.一种语音识别方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，所述利用所述语音识别模型分别对各所述目标音频段进行识别，得到各所述目标音频段的识别文本，包括：

13.根据权利要求12所述的方法，其特征在于，所述至少基于所述目标音频段的音频特征，得到各所述目标音频段的识别文本，包括：

14.一种语音识别模型的训练装置，其特征在于，所述装置包括：

15.一种语音识别装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现权利要求1-13任一项所述的方法。

技术总结本申请公开了一种语音识别模型的训练方法、语音识别方法和相关装置，该方法包括：获取若干样本音频段；利用语音识别模型分别对各样本音频段进行特征提取，得到各样本音频段的音频特征和至少一个场景特征，场景特征用于表征样本音频段的说话人、采集通道和所属音频源中的至少一者的信息；利用语音识别模型至少基于各样本音频段的音频特征，得到各样本音频段的样本识别文本；基于样本识别文本和样本音频段的标注文本之间的文本差异、以及各样本音频段的场景特征之间的特征相似度，调整语音识别模型。通过上述方式，本申请能够提高语音识别的准确性。技术研发人员：胡今朝,吴重亮,马志强,李永超,吴明辉,方昕受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/3/17