技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于大语言模型的任务执行方法、装置、介质及设备与流程 > 正文

一种基于大语言模型的任务执行方法、装置、介质及设备与流程

国知局
2024-10-09 14:56:38

本说明书涉及计算机视觉领域，尤其涉及一种基于大语言模型的任务执行方法、装置、介质及设备。

背景技术：

1、随着计算机视觉领域的发展，目前，基于深度学习技术构建出的大语言模型已经可以执行多种图像处理任务。例如，大语言模型可提取一张包含个人信息的图像中的数字并输出，完成信息抽取任务，又例如，大语言模型可对自视频中截取的多张连续帧图像进行分析，以理解视频中讲述的故事并输出对应文本，从而完成内容理解任务。

2、但对于大语言模型而言，若要对图像进行处理，则需要将图像数据转化为大语言模型可理解的token(语义单元)，也可以称为图像数据对应的编码数据，进而将图像数据转化成的token输入到大语言模型进行处理。而为大语言模型转化图像数据的执行主体即可作为大语言模型的视觉模块。

3、然而，目前的视觉模块，其仅能对固定图像分辨率大小的图像进行处理。所以，当大语言模型需要处理图像的分辨率与大语言模型的视觉模块所对应的分辨率不同时，则视觉模块无法对图像进行转化，这影响了大语言模型的图像处理效率。

4、因此，如何通过固定分辨率的视觉模块处理不同分辨率的图像，则是一个亟待解决的问题。

技术实现思路

1、本说明书提供一种基于大语言模型的任务执行方法、装置、介质及设备，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种基于大语言模型的任务执行方法，所述方法包括：

4、接收第一分辨率的初始图像；

5、切分所述初始图像，得到若干个第二分辨率的图像块，所述第二分辨率小于所述第一分辨率；

6、针对每个图像块，将该图像块输入到用于转化所述第二分辨率的图像的视觉模块中，得到该图像块对应的编码数据，其中，该图像块对应的编码数据中包含了该图像块在所述初始图像中的位置信息；

7、合并所述若干个图像块对应的编码数据，得到综合编码数据；

8、将所述综合编码数据输入到预先调整的大语言模型中，得到所述初始图像对应的输出结果；

9、根据所述初始图像对应的输出结果，执行目标任务。

10、可选地，在切分所述初始图像，得到若干个第二分辨率的图像块之前，所述方法还包括：

11、判断所述初始图像是否能被切分为正整数个第二分辨率的图像块；

12、当确定所述初始图像不能被切分为正整数个第二分辨率的图像块，以填充后的初始图像能够被切分为正整数个第二分辨率的图像块为约束条件，对所述初始图像进行填充，得到填充后初始图像；

13、切分所述初始图像，得到若干个第二分辨率的图像块，具体包括：

14、切分所述填充后初始图像，得到若干个第二分辨率的图像块。

15、可选地，切分所述初始图像，得到若干个第二分辨率的图像块，具体包括：

16、根据所述第二分辨率，确定出所述第二分辨率对应的分割滑窗；

17、根据所述分割滑窗，切分所述初始图像，得到若干个第二分辨率的图像块。

18、可选地，在合并所述若干个图像块对应的综合编码数据，得到综合编码数据之前，所述方法还包括：

19、将所述初始图像的分辨率调整为所述第二分辨率，得到调整后的初始图像；

20、将所述调整后的初始图像输入到所述视觉模块中，得到所述调整后的初始图像对应的编码数据，作为全局编码数据；

21、合并所述若干个图像块对应的编码数据，得到综合编码数据，具体包括：

22、合并所述若干个图像块对应的编码数据以及所述全局编码数据，得到综合编码数据。

23、可选地，将所述综合编码输入到预先调整的大语言模型中，得到所述初始图像对应的输出结果，具体包括：

24、将所述综合编码数据输入到预先调整的大语言模型中，以通过所述预先调整的大语言模型中包含的辅助矩阵，得到所述初始图像对应的输出结果，所述辅助矩阵是在调整大语言模型时添加到大语言模型中的。

25、可选地，预先调整大语言模型，具体包括：

26、构建辅助矩阵，并将构建出的辅助矩阵添加到预设的大语言模型中，得到添加后大语言模型；

27、接收所述第一分辨率的样本图像；

28、切分所述样本图像，得到若干个所述第二分辨率的样本图像块；

29、针对每个样本图像块，将该样本图像块输入到用于转化所述第二分辨率的图像的视觉模块中，得到该样本图像块对应的编码数据，其中，该样本图像块对应的编码数据中包含了该样本图像块在所述样本图像中的位置信息；

30、合并所述若干个样本图像块对应的编码数据，得到综合编码数据；

31、将所述综合编码数据输入所述添加后大语言模型中，得到所述样本图像对应的输出结果；

32、确定出所述样本图像对应的输出结果与所述样本图像对应的标准结果之间的偏差，并根据所述偏差，确定出所述添加后大语言模型对应的损失函数值，其中，所述偏差越大，所述添加后大语言模型对应的损失函数值越大；

33、根据所述损失函数值，调整所述添加后大语言模型中添加的辅助矩阵中包含的权重值，得到调整后的大语言模型。

34、本说明书提供了一种基于大语言模型的任务执行装置，包括：

35、接收模块，用于接收第一分辨率的初始图像；

36、切分模块，用于切分所述初始图像，得到若干个第二分辨率的图像块，所述第二分辨率小于所述第一分辨率；

37、转化模块，用于针对每个图像块，将该图像块输入到用于转化所述第二分辨率的图像的视觉模块中，得到该图像块对应的编码数据，其中，该图像块对应的编码数据中包含了该图像块在所述初始图像中的位置信息；

38、合并模块，用于合并所述若干个图像块对应的编码数据，得到综合编码数据；

39、输入模块，用于将所述综合编码数据输入到预先调整的大语言模型中，得到所述初始图像对应的输出结果；

40、执行模块，用于根据所述初始图像对应的输出结果，执行目标任务。

41、可选地，所述装置还包括：

42、填充模块，具体用于判断所述初始图像是否能被切分为正整数个第二分辨率的图像块；当确定所述初始图像不能被切分为正整数个第二分辨率的图像块，以填充后的初始图像能够被切分为正整数个第二分辨率的图像块为约束条件，对所述初始图像进行填充，得到填充后初始图像；

43、所述切分模块具体用于，切分所述填充后初始图像，得到若干个第二分辨率的图像块。

44、可选地，所述切分模块具体用于，根据所述第二分辨率，确定出所述第二分辨率对应的分割滑窗；根据所述分割滑窗，切分所述初始图像，得到若干个第二分辨率的图像块。

45、可选地，所述装置还包括：

46、调整模块，具体用于将所述初始图像的分辨率调整为所述第二分辨率，得到调整后的初始图像；将所述调整后的初始图像输入到所述视觉模块中，得到所述调整后的初始图像对应的编码数据，作为全局编码数据；

47、所述合并模块具体用于，合并所述若干个图像块对应的编码数据以及所述全局编码数据，得到综合编码数据。

48、可选地，所述输入模块具体用于，将所述综合编码数据输入到预先调整的大语言模型中，以通过所述预先调整的大语言模型中包含的辅助矩阵，得到所述初始图像对应的输出结果，所述辅助矩阵是在调整大语言模型时添加到大语言模型中的。

49、可选地，所述输入模块具体用于，构建辅助矩阵，并将构建出的辅助矩阵添加到预设的大语言模型中，得到添加后大语言模型；接收所述第一分辨率的样本图像；切分所述样本图像，得到若干个所述第二分辨率的样本图像块；针对每个样本图像块，将该样本图像块输入到用于转化所述第二分辨率的图像的视觉模块中，得到该样本图像块对应的编码数据，其中，该样本图像块对应的编码数据中包含了该样本图像块在所述样本图像中的位置信息；合并所述若干个样本图像块对应的编码数据，得到综合编码数据；将所述综合编码数据输入所述添加后大语言模型中，得到所述样本图像对应的输出结果；确定出所述样本图像对应的输出结果与所述样本图像对应的标准结果之间的偏差，并根据所述偏差，确定出所述添加后大语言模型对应的损失函数值，其中，所述偏差越大，所述添加后大语言模型对应的损失函数值越大；根据所述损失函数值，调整所述添加后大语言模型中添加的辅助矩阵中包含的权重值，得到调整后的大语言模型。

50、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于大语言模型的任务执行方法。

51、本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于大语言模型的任务执行方法。

52、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

53、在本说明提供的一种基于大语言模型的任务执行方法中，在接收第一分辨率的初始图像后，切分初始图像，得到若干个第二分辨率的图像块，并将每个图像块输入到用于转化第二分辨率的图像的视觉模块中，以得到各图像块对应的编码数据，而后合并若干个图像块对应的编码数据，得到综合编码数据，从而将综合编码数据输入到预先调整的大语言模型中，得到初始图像对应的输出结果，并根据输出结果，执行目标任务。

54、从上述方法中可以看出，即使需要处理的图像的分辨率不是视觉模块所要求处理的图像的分辨率，依然可以通过将该图像进行切分，得到若干个视觉模块能够处理的图像块，并通过将这些图像块的编码数据进行整合，从而实现了视觉模块对该图像的处理，进而提高了大语言模型的图像处理效率。