技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种模型训练和任务执行方法、装置、存储介质及设备与流程 > 正文

一种模型训练和任务执行方法、装置、存储介质及设备与流程

国知局
2024-09-14 15:10:01

本说明书涉及计算机，尤其涉及一种模型训练和任务执行方法、装置、存储介质及设备。

背景技术：

1、多媒体数据可以通过诸如图文或音视频等丰富的形式对信息进行表达，以使用户快速获取到想要的信息，在此基础上，用户可以自行在平台上发布多媒体数据，或是对其他用户所发布的数据进行浏览。随着技术的发展，针对多媒体数据的目标识别技术开始被广泛的应用到诸如图像分类、信息推荐、隐私保护以及风险控制等领域。

2、以风控场景为例，当用户上传音视频数据时，通常需要对数据内容进行检测，以确保用户上传的多媒体数据符合平台规定。而在信息推荐场景中，用户可以在平台中输入想要浏览的内容的关键词，以使平台基于用户输入的内容向其推荐多媒体数据。

3、在上述场景中，通常需要使用神经网络模型对多媒体数据进行分类，以基于分类结果执行后续任务，这就需要事先对模型进行训练以使其具备精准的识别能力。

4、然而，目前在训练模型过程中所使用的训练样本的标签通常为人工标注的关键词，这种标签的表示粒度较粗，表征能力较差，严重限制了模型的性能和识别能力，影响了模型的分类效果。

5、因此，如何保证模型的识别能力，提高分类效果，是一个亟待解决的问题。

技术实现思路

1、本说明书提供一种模型训练和任务执行方法、装置、存储介质及设备。以通过大语言模型对描述多媒体数据的关键词进行细化得到数据描述信息进而对分类模型进行训练。

2、本说明书采用下述技术方案：

3、本说明书提供了一种模型训练方法，包括：

4、获取多媒体数据，并确定用于描述所述多媒体数据的内容的关键词；

5、将所述多媒体数据输入待训练的分类模型，以通过所述分类模型，确定所述多媒体数据对应的分类结果，以及，将所述关键词输入预设的大语言模型，以通过所述大语言模型，基于指定的信息生成条件，生成所述多媒体数据对应的数据描述信息；

6、根据所述分类结果和所述数据描述信息，对所述分类模型进行训练。

7、可选地，通过所述分类模型，确定所述多媒体数据对应的分类结果，具体包括：

8、通过所述分类模型对所述多媒体数据进行特征提取，以确定所述多媒体数据对应的特征数据，并根据所述特征数据确定所述分类结果；

9、根据所述分类结果和所述数据描述信息，对所述分类模型进行训练，具体包括：

10、通过预设的特征提取层，对所述数据描述信息进行特征提取，得到所述数据描述信息对应的特征数据；

11、以最小化所述多媒体数据对应的特征数据和所述数据描述信息对应的特征数据之间的偏差为优化目标，对所述分类模型进行训练。

12、可选地，所述方法还包括：

13、确定与所述多媒体数据属于同一类别的其他多媒体数据所对应的数据描述信息，作为第一数据描述信息，以及，确定与所述多媒体数据属于不同类别的其他多媒体数据所对应的数据描述信息，作为第二数据描述信息；

14、以最小化所述多媒体数据对应的特征数据与所述第一数据描述信息对应的特征数据之间的偏差，以及，最大化所述多媒体数据对应的特征数据与所述第二数据描述信息对应的特征数据之间的偏差为优化目标，对所述分类模型进行训练。

15、可选地，以最小化所述多媒体数据对应的特征数据和所述数据描述信息对应的特征数据之间的偏差为优化目标，对所述分类模型进行训练，具体包括：

16、确定所述多媒体数据对应的特征数据的概率分布，作为第一概率分布，以及，确定所述数据描述信息对应的特征数据的概率分布，作为第二概率分布；

17、以最小化所述第一概率分布与所述第二概率分布之间的偏差为优化目标，对所述分类模型进行训练。

18、可选地，所述多媒体数据包括：视频数据和/或音频数据。

19、本说明书提供了一种任务执行方法，包括：

20、获取待识别多媒体数据；

21、将所述待识别多媒体数据输入预先训练的分类模型中，以通过所述分类模型，确定所述待识别数据对应的分类结果，其中，所述分类模型是通过上述模型训练方法训练得到的；

22、根据所述分类结果，执行任务。

23、本说明书提供了一种模型训练装置，包括：

24、获取模块，用于获取多媒体数据，并确定用于描述所述多媒体数据的内容的关键词；

25、输入模块，用于将所述多媒体数据输入待训练的分类模型，以通过所述分类模型，确定所述多媒体数据对应的分类结果，以及，将所述关键词输入预设的大语言模型，以通过所述大语言模型，基于指定的信息生成条件，生成所述多媒体数据对应的数据描述信息；

26、训练模块，用于根据所述分类结果和所述数据描述信息，对所述分类模型进行训练。

27、可选地，所述输入模块具体用于，通过所述分类模型对所述多媒体数据进行特征提取，以确定所述多媒体数据对应的特征数据，并根据所述特征数据确定所述分类结果；

28、所述训练模块具体用于，通过预设的特征提取层，对所述数据描述信息进行特征提取，得到所述数据描述信息对应的特征数据；以最小化所述多媒体数据对应的特征数据和所述数据描述信息对应的特征数据之间的偏差为优化目标，对所述分类模型进行训练。

29、可选地，所述训练模块还用于，确定与所述多媒体数据属于同一类别的其他多媒体数据所对应的数据描述信息，作为第一数据描述信息，以及，确定与所述多媒体数据属于不同类别的其他多媒体数据所对应的数据描述信息，作为第二数据描述信息；以最小化所述多媒体数据对应的特征数据与所述第一数据描述信息对应的特征数据之间的偏差，以及，最大化所述多媒体数据对应的特征数据与所述第二数据描述信息对应的特征数据之间的偏差为优化目标，对所述分类模型进行训练。

30、可选地，所述训练模块具体用于，确定所述多媒体数据对应的特征数据的概率分布，作为第一概率分布，以及，确定所述数据描述信息对应的特征数据的概率分布，作为第二概率分布；以最小化所述第一概率分布与所述第二概率分布之间的偏差为优化目标，对所述分类模型进行训练。

31、可选地，所述多媒体数据包括：视频数据和/或音频数据。

32、本说明书提供了一种任务执行装置，包括：

33、获取模块，用于获取待识别多媒体数据；

34、分类模块，用于将所述待识别多媒体数据输入预先训练的分类模型中，以通过所述分类模型，确定所述待识别数据对应的分类结果，其中，所述分类模型是通过上述模型训练方法训练得到的；

35、执行模块，用于根据所述分类结果，执行任务。

36、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练和任务执行方法。

37、本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练和任务执行方法。

38、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

39、在本说明书提供的模型训练方法中，获取多媒体数据，并确定用于描述多媒体数据的内容的关键词；将多媒体数据输入待训练的分类模型，以通过分类模型，确定多媒体数据对应的分类结果，以及，将关键词输入预设的大语言模型，以通过大语言模型，基于指定的信息生成条件，生成多媒体数据对应的数据描述信息；根据分类结果和数据描述信息，对分类模型进行训练。

40、从上述方法可以看出，本方案在对分类模型进行训练的过程中，可以通过大语言模型对粗粒度的文本标签(描述多媒体数据内容的关键词)进行细化，以细粒度的数据描述信息作为新的标签来训练分类模型，相比于目前仅通过关键词作为标签来训练模型的方法，以本方案中的数据描述信息作为标签所训练出的模型具有较高的分类能力和表征能力，充分提高了分类模型的模型性能。