技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、装置、电子设备及存储介质与流程 > 正文

模型训练方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:54:42

本技术涉及计算机，特别是涉及一种模型训练方法、装置、电子设备及存储介质。

背景技术：

1、目前，在音频处理场景中，通常需要采用音频处理模型对音频数据进行特征提取处理，相关技术中，由于训练数据集的规模通常较小，使得训练得到的音频处理模型的特征表达能力通常较差，影响了音频处理模型处理各种下游任务的性能。

技术实现思路

1、以下是对本技术详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本技术实施例提供了一种模型训练方法、装置、电子设备及存储介质，能够提升目标模型的特征表达能力。

3、一方面，本技术实施例提供了一种模型训练方法，包括：

4、获取样本音频的样本信息文本，根据所述样本信息文本构建提示文本，将所述提示文本输入大语言模型进行文本预测，生成用于描述所述样本音频的描述文本，其中，所述提示文本用于提示所述大语言模型生成所述描述文本；

5、获取所述样本音频，基于所述样本音频、所述样本信息文本以及所述描述文本中的两种构建第一样本，基于构建所述第一样本后所述样本音频、所述样本信息文本以及所述描述文本中剩余的一种构建第二样本；

6、将所述第一样本与所述第二样本输入至目标模型，提取所述第一样本的第一特征以及所述第二样本的第二特征；

7、基于所述第一特征以及所述第二特征确定对比损失，根据所述对比损失训练所述目标模型。

8、另一方面，本技术实施例还提供了一种模型训练装置，包括：

9、生成模块，用于获取样本音频的样本信息文本，根据所述样本信息文本构建提示文本，将所述提示文本输入大语言模型进行文本预测，生成用于描述所述样本音频的描述文本，其中，所述提示文本用于提示所述大语言模型生成所述描述文本；

10、构建模块，用于获取所述样本音频，基于所述样本音频、所述样本信息文本以及所述描述文本中的两种构建第一样本，基于构建所述第一样本后所述样本音频、所述样本信息文本以及所述描述文本中剩余的一种构建第二样本；

11、处理模块，用于将所述第一样本与所述第二样本输入至目标模型，提取所述第一样本的第一特征以及所述第二样本的第二特征；

12、第一训练模块，用于基于所述第一特征以及所述第二特征确定对比损失，根据所述对比损失训练所述目标模型。

13、进一步，当所述第二样本基于所述描述文本或者所述样本信息文本构建时，所述目标模型包括第一文本编码器、第二文本编码器、音频编码器和融合层，上述处理模块具体用于：

14、通过所述第一文本编码器提取所述样本信息文本的第一编码特征，通过所述第二文本编码器提取所述描述文本的第二编码特征，通过所述音频编码器提取所述样本音频的第三编码特征；

15、当所述第二样本基于所述描述文本构建时，通过所述融合层对所述第一编码特征和所述第三编码特征进行融合得到所述第一样本的第一特征，将所述第二编码特征确定为所述第二样本的第二特征；

16、当所述第二样本基于所述样本信息文本构建时，通过所述融合层对所述第二编码特征和所述第三编码特征进行融合得到所述第一样本的第一特征，将所述第一编码特征确定为所述第二样本的第二特征。

17、进一步，所述根据所述对比损失训练所述目标模型，上述第一训练模块具体用于：

18、根据所述对比损失，对所述第一文本编码器、所述第二文本编码器、所述音频编码器和所述融合层进行联合训练。

19、进一步，所述第一特征的数量为多个，各个所述第一特征均有各自匹配的所述第二特征，上述第一训练模块具体用于：

20、对于各个所述第一特征，确定所述第一特征与相匹配的所述第二特征之间的第一相似度，确定所述第一特征与其余各个不匹配的所述第二特征之间的第二相似度，根据所述第一相似度和各个所述第二相似度的总和确定第一范围值，对所述第一相似度和所述第一范围值之间的比值取对数，确定第一损失分量；

21、对于各个所述第二特征，确定所述第二特征与相匹配的所述第一特征之间的第三相似度，确定所述第二特征与其余各个不匹配的所述第一特征之间的第四相似度，根据所述第三相似度和各个所述第四相似度的总和确定第二范围值，对所述第三相似度和所述第二范围值之间的比值取对数，确定第二损失分量；

22、根据所述第一损失分量和所述第二损失分量，确定对比损失。

23、进一步，当所述第二样本基于所述样本音频构建时，所述目标模型包括第一文本编码器和音频编码器，上述处理模块具体用于：

24、通过所述第一文本编码器依次对所述样本信息文本和所述描述文本进行特征提取，得到所述第一样本的第一特征，或者将所述样本信息文本和所述描述文本拼接后通过所述第一文本编码器进行特征提取，得到所述第一样本的第一特征；

25、通过所述音频编码器对所述样本音频进行特征提取，得到所述第二样本的第二特征。

26、进一步，所述基于所述第一特征以及所述第二特征确定对比损失，上述第一训练模块具体用于：

27、当所述第一特征是依次对所述样本信息文本和所述描述文本进行特征提取得到的时，基于所述样本信息文本对应的所述第一特征和所述第二特征确定第一对比子损失，基于所述描述文本对应的所述第一特征和所述第二特征确定第二对比子损失，根据所述第一对比子损失和所述第二对比子损失确定对比损失；

28、或者，当所述第一特征是将所述样本信息文本和所述描述文本拼接后通过所述第一文本编码器进行特征提取得到的时，基于所述第一特征以及所述第二特征确定对比损失。

29、进一步，上述模型训练装置还包括第二训练模块，第二训练模块具体用于：

30、对所述样本信息文本或所述描述文本中的目标词语进行掩码得到掩码文本，对样本音频中的目标音频片段进行掩码得到掩码音频；

31、将所述掩码文本和所述掩码音频输入至所述目标模型，对被掩码的所述目标词语进行预测得到第一预测结果，对被掩码的所述目标音频片段进行预测得到第二预测结果；

32、根据所述第一预测结果和所述目标词语确定第一重建损失，根据所述第二预测结果和所述目标音频片段确定第二重建损失；

33、根据所述第一重建损失和所述第二重建损失训练所述目标模型。

34、进一步，上述生成模块具体用于：

35、当所述样本信息文本包括元信息文本时，根据所述元信息文本构建提示文本；

36、或者，当所述样本信息文本包括元信息文本和内容文本时，将所述元信息文本和所述内容文本拼接后构建提示文本；

37、或者，当所述样本信息文本包括元信息文本和音频标签文本时，将所述元信息文本和所述音频标签文本拼接后构建提示文本；

38、或者，当所述样本信息文本包括元信息文本、内容文本和音频标签文本时，将所述元信息文本、所述内容文本和所述音频标签文本拼接后构建提示文本。

39、进一步，当所述样本信息文本包括元信息文本和内容文本时，上述生成模块具体用于：

40、对所述内容文本进行分割，得到多个内容片段；

41、对所述内容片段进行情感分析，基于情感分析结果在各个所述内容片段中确定目标片段；

42、将所述元信息文本和所述目标片段拼接后构建提示文本。

43、进一步，所述样本音频的数量为多个，上述构建模块具体用于：

44、向云端服务器发送音频获取请求；

45、获取所述云端服务器响应所述音频获取请求发送的多个所述样本音频，其中，多个所述样本音频由分布式设置的多个节点分别上传至所述云端服务器，各个所述节点分别用于按照预设的采样列表下载初始音频，以及将所述初始音频压缩为所述样本音频。

46、进一步，上述模型训练装置还包括第三训练模块，第三训练模块具体用于：

47、获取所述样本音频的任务标签，将所述样本音频和所述样本信息文本输入至训练后的所述目标模型，对所述样本信息文本进行特征提取，得到样本文本特征，对所述样本音频进行特征提取，得到样本音频特征，对所述样本文本特征和所述样本音频特征进行融合，得到样本融合特征，对所述样本融合特征进行预测，得到样本预测结果；

48、根据所述样本预测结果和所述任务标签确定任务损失，根据所述任务损失再次训练所述目标模型。

49、另一方面，本技术实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的模型训练方法。

50、另一方面，本技术实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的模型训练方法。

51、另一方面，本技术实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的模型训练方法。

52、本技术实施例至少包括以下有益效果：通过样本音频的样本信息文本构建提示文本，然后利用大语言模型基于提示文本生成描述文本，根据样本音频、样本信息文本和描述文本构建组合为多模态数据的第一样本和第二样本，进而通过目标模型提取第一样本的第一特征和第二样本的第二特征，再通过第一特征以及第二特征确定对比损失，由于第一特征对应的模态和第二特征对应的模态是不同的，因此目标模型能够在利用对比损失进行训练过程中学习对齐多种模态的特征，由于描述文本是由大语言模型生成的，因此目标模型能够在学习利用样本信息文本和样本音频的同时，利用描述文本注入大语言模型的知识，相当于目标模型能够获得大语言模型的知识，使得目标模型能够学习到更加通用的特征表示，提高目标模型的泛化性能，还能够显著提升目标模型的特征表达能力，从而提升目标模型在多种下游任务中的性能。

53、本技术的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。