技术新讯 > 计算推算,计数设备的制造及其应用技术 > 多模态数据增强方法、装置、存储介质及电子装置与流程 > 正文

多模态数据增强方法、装置、存储介质及电子装置与流程

国知局
2024-08-19 14:16:37

本发明涉及文本数据处理相关领域，具体而言，涉及一种多模态数据增强方法、装置、存储介质及电子装置。

背景技术：

1、视觉-语言(vision-language,vl)是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域，旨在赋予ai系统从多模态数据中学习有效信息的能力。受nlp预训练语言模型(如bert\gpt等)的启发，视觉-语言预训练(vision-language pre-training，vlp)逐渐受到关注，成为如今vl任务的核心训练范式。

2、视觉语言模型训练数据集中，包含数词2到6的图文对数量是7到10的1000倍以上，严重的类别不平衡问题损害了视觉语言模型的计数能力。

3、通常采用随机欠采样的方法，对于头部数据进行截断，欠采样的方法，舍弃了部分训练数据，造成了训练资源的浪费，由于尾部数据数量极少，即使对头部进行欠采样，类别不平衡问题仍然存在。大规模视觉-语言模型(例如clip)经常难以准确描述图像中主体目标的个数。

4、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种多模态数据增强方法、装置、存储介质及电子装置，以至少解决现有技术中，多模态数据增强效率较低的技术问题。

2、根据本发明实施例的一个方面，提供了一种多模态数据增强方法，包括：获取目标图文对，其中，所述目标图文对包括：目标图像与所述目标图像的描述文本构成的配对、且所述描述文本中只包含目标数词；使用实例分割模型，提取所述目标图像中的主体目标object，并复制所述主体目标，得到m个主体目标；在目标图像中选取p个位置坐标，将提取出的所述主体目标进行随机增强后后粘贴至目标位置，得到新的图像i；将所述目标文本描述文本中的目标数词n修改为n，得到新的图像描述文本t，具有格式aphoto of{n}{objects}，所述m、n、p均为大于1的正整数；将图像文本对集合{(i，t)}作为训练集，使用对比学习方法训练视觉语言模型。

3、可选的，所述获取目标图文对之前，所述方法包括：对原始图文数据集进行初步筛选，获取所述目标图文。

4、可选的，使用实例分割模型，提取所述目标图像中的主体目标object，并复制所述主体目标，得到m个主体目标，包括：使用所述实例分割模型，提取所述目标图像中的主体目标object，在所述主体目标object存在多个的情况下，随机确定所述主体目标object。

5、可选的，所述复制所述主体目标，得到m个主体目标，包括：当前图像目标主体object个数k，总训练轮次y，当前训练轮次t，以渐进类别概率得到当前应得目标数q：

6、

7、m＝max(q-n，0)

8、其中，表示第i类的实例概率，表示第i类的类别概率，

9、和通过对原始数据集统计得到。

10、根据本发明实施例的另一方面，还提供了一种多模态数据增强装置，包括：获取模块，用于获取目标图文对，其中，所述目标图文对包括：目标图像与所述目标图像的描述文本构成的配对、且所述描述文本中只包含目标数词；提取模块，用于使用实例分割模型，提取所述目标图像中的主体目标object，并复制所述主体目标，得到m个主体目标；第一确定模块，用于在目标图像中选取p个位置坐标，将提取出的所述主体目标进行随机增强后后粘贴至目标位置，得到新的图像i；修改模块，用于将所述目标文本描述文本中的目标数词n修改为n，得到新的图像描述文本t，具有格式aphoto of{n}{objects}，所述m、n、p均为大于1的正整数；第二确定模块，用于将图像文本对集合{(i，t)}作为训练集，使用对比学习方法训练视觉语言模型。

11、根据本申请实施例的第一个方面，提供了一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述多模态数据增强方法。

12、根据本申请实施例的第一个方面，提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述多模态数据增强方法。

13、在本发明实施例中，获取目标图文对，其中，目标图文对包括：目标图像与目标图像的描述文本构成的配对、且描述文本中只包含目标数词；使用实例分割模型，提取目标图像中的主体目标object，并复制主体目标，得到m个主体目标；在目标图像中选取p个位置坐标，将提取出的主体目标进行随机增强后后粘贴至目标位置，得到新的图像i；将目标文本描述文本中的目标数词n修改为n，得到新的图像描述文本t，具有格式aphoto of{n}{objects}，m、n、p均为大于1的正整数；将图像文本对集合{(i，t)}作为训练集，使用对比学习方法训练视觉语言模型，通过复制目标图像中目标主体，修改目标数词，得到图像集合。解决了现有技术中，多模态数据增强准确性较低的技术问题。

技术特征：

1.一种多模态数据增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标图文对之前，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，使用实例分割模型，提取所述目标图像中的主体目标object，并复制所述主体目标，得到m个主体目标，包括：

4.根据权利要求3所述的方法，其特征在于，所述复制所述主体目标，得到m个主体目标，包括：

5.一种多模态数据增强装置，其特征在于，包括：

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。

技术总结本发明公开了一种多模态数据增强方法、装置、存储介质及电子装置。该方法包括：获取描述文本中只包含目标数词的图文对；使用实例分割模型，提取目标图像中的主体目标object，并复制主体目标，得到m个主体目标；在目标图像中选取p个位置坐标，将提取出的主体目标进行随机增强后后粘贴至目标位置，得到新的图像I；将目标文本描述文本中的目标数词n修改为N，得到新的图像描述文本T，具有格式Aphoto of{N}{objects}；将图像文本对集合{(I，T)}作为训练集，使用对比学习方法训练视觉语言模型，通过复制目标图像中目标主体，修改目标数词，得到图像集合。解决了现有技术中，多模态数据增强准确性较低的技术问题。技术研发人员：胡炳然,冉敏,刘春艳,梁家恩受保护的技术使用者：云知声智能科技股份有限公司技术研发日：技术公布日：2024/8/16