技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多模态通用模型的预训练方法、语音识别方法及相关装置与流程 > 正文

多模态通用模型的预训练方法、语音识别方法及相关装置与流程

国知局
2024-06-21 11:48:23

本技术涉及预训练，尤其涉及一种多模态通用模型的预训练方法、语音识别方法及相关装置。

背景技术：

1、现有的预训练模型通常使用单模态数据作为训练数据，例如使用有标注音频的文本数据对作为训练数据，使得预训练模型能够理解的内容有限，对具有多模态输入的下游任务的解决能力较差。因此，如何提高预训练模型针对具有多模态输入的下游任务的解决能力，成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、有鉴于此，本技术提出一种多模态通用模型的预训练方法、语音识别方法及相关装置，该方法能够提高预训练模型针对具有多模态输入的下游任务的解决能力。

2、本技术提出的技术方案具体如下：

3、第一方面，本技术的实施例提供一种多模态通用模型的预训练方法，包括：

4、将同源数据组输入到多模态通用模型中，以使所述多模态通用模型提取所述同源数据组中各数据的数据特征；所述同源数据组中包括不同模态的数据，同一同源数据组中不同模态的数据对应描述相同的内容；

5、以拉近同一同源数据组中各数据对应的数据特征的距离为目标，对所述多模态通用模型的参数进行调整。

6、第二方面，本技术的实施例提供一种多模态通用模型的预训练装置，包括：

7、第一输入模块，用于将同源数据组输入到多模态通用模型中，以使所述多模态通用模型提取所述同源数据组中各数据的数据特征；所述同源数据组中包括不同模态的数据，同一同源数据组中不同模态的数据对应描述相同的内容；

8、调整模块，用于以拉近同一同源数据组中各数据对应的数据特征的距离为目标，对所述多模态通用模型的参数进行调整。

9、进一步地，以上所述的多模态通用模型的预训练装置中，所述调整模块，具体用于：以将同一同源数据组中各数据对应的数据特征拉伸至相同的长度为目标，对所述多模态通用模型的参数进行调整。

10、进一步地，以上所述的多模态通用模型的预训练装置中，所述调整模块，具体用于：通过对所述多模态通用模型的参数进行调整，以使所述多模态通用模型将第一目标特征作为注意力机制中的query，第二目标特征作为所述注意力机制中的key和value，利用所述注意力机制对所述第二目标特征进行特征长度处理，得到和第一目标特征的长度相同的第三目标特征，并对所述第一目标特征和所述第三目标特征进行一致性约束；所述第一目标特征和所述第二目标特征为同一同源数据组中各数据对应的任意两个不同的数据特征。

11、进一步地，以上所述的多模态通用模型的预训练装置中，所述调整模块，具体用于：将同一同源数据组中各数据对应的数据特征的距离作为所述多模态通用模型的损失；以减小所述多模态通用模型的损失为目标，对所述多模态通用模型的参数进行调整。

12、进一步地，以上所述的多模态通用模型的预训练装置中，所述同源数据组中包括文本模态的文本数据；所述装置还包括：

13、第一训练模块，用于将所述文本数据进行遮罩处理，得到文本训练语句；将任务提示和所述文本训练语句输入到所述多模态通用模型中，以使所述多模态通用模型根据所述任务提示，对所述文本训练语句中的遮罩部分进行预测，得到预测结果；所述任务提示包括对所述文本训练语句中的遮罩部分进行预测任务的提示；根据所述预测结果对所述多模态通用模型的参数进行调整。

14、进一步地，以上所述的多模态通用模型的预训练装置中，所述同源数据组中包括图像模态或者声音模态的媒体数据；所述装置还包括：

15、第二训练模块，用于将所述媒体数据进行遮罩处理，得到媒体训练语句；将所述媒体训练语句和所述媒体数据均输入到所述多模态通用模型中，以使所述多模态通用模型对所述媒体训练语句中的遮罩部分进行预测，得到预测结果，以及，以使所述多模态通用模型输出所述媒体数据；以减小所述预测结果和目标数据之间的距离为目标，对所述多模态通用模型的参数进行调整；所述目标数据为所述媒体数据中与所述遮罩部分处于相同位置的数据。

16、第三方面，本技术的实施例提供一种语音识别方法，包括：

17、将待识别内容输入到预先训练的语音识别模型中，以使所述语音识别模型对所述待识别内容进行处理，得到所述语音识别模型输出的语音识别结果；所述待识别内容包括语音数据或者视频数据；所述语音识别模型是在以上任一项所述的多模态通用模型的基础上，进行语音识别微调训练得到的。

18、第四方面，本技术的实施例提供一种语音识别装置，包括：

19、第二输入模块，用于将待识别内容输入到预先训练的语音识别模型中，以使所述语音识别模型对所述待识别内容进行处理，得到所述语音识别模型输出的语音识别结果；所述待识别内容包括语音数据或者视频数据；所述语音识别模型是在以上任一项所述的多模态通用模型的基础上，进行语音识别微调训练得到的。

20、进一步地，以上所述的语音识别装置中，所述第二输入模块，具体用于：将所述待识别内容输入到预先训练的语音识别模型中，以使所述语音识别模型对所述待识别内容进行语音识别处理，得到所述语音识别模型输出的多个候选结果；将所述多个候选结果拼接，并将拼接后的候选结果和纠错任务提示输入到所述语音识别模型中，以使所述语音识别模型根据所述纠错任务提示对拼接后的候选结果进行纠错处理，得到所述语音识别模型输出的纠错结果作为所述语音识别模型输出的语音识别结果。

21、第五方面，本技术的实施例提供一种电子设备，包括：

22、存储器和处理器；其中，所述存储器用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现以上任意一项所述的多模态通用模型的预训练方法，和/或，实现以上任意一项所述的语音识别方法。

23、第六方面，本技术的实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以上任意一项所述的多模态通用模型的预训练方法，和/或，实现以上任意一项所述的语音识别方法。

24、第七方面，本技术的实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行以上任意一项所述的多模态通用模型的预训练方法，和/或，执行以上任意一项所述的语音识别方法。

25、本技术提出的多模态通用模型的预训练方法，将同源数据组输入到多模态通用模型中，以使多模态通用模型提取同源数据组中各数据的数据特征；同源数据组中包括不同模态的数据，同一同源数据组中不同模态的数据对应描述相同的内容；以拉近同源数据组中各数据对应的数据特征的距离为目标，对多模态通用模型的参数进行调整。如此设置，能够基于不同模态的数据对多模态通用模型进行训练，提升多模态通用模型对具有多模态输入的下游任务的通用性，并且通过以拉近同源数据组中各数据对应的数据特征的距离为目标，对多模态通用模型的参数进行调整，能够使多模态通用模型对不同模态但描述相同或相近内容的数据进行相同的理解，进而提高对具有多模态输入的下游任务的预测结果的准确性，提升多模态通用模型针对具有多模态输入的下游任务的解决能力。