技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于蜕变测试的文生图扩散模型微调方法和系统 > 正文

一种基于蜕变测试的文生图扩散模型微调方法和系统

国知局
2024-07-31 22:39:33

本发明属于计算机人工智能，具体涉及一种基于蜕变测试的文生图扩散模型微调方法和系统。

背景技术：

1、文生图模型是一种生成式模型，旨在通过学习大量文本和图片数据来生成图片。它的发展经历了多个阶段，其中一个重要的进展是扩散模型(diffusion model)，扩散模型从气体扩散的物理过程中获得灵感，相较之前的文生图模型能够更好地捕捉语言的长期依赖关系和全局结构，从而生成更加更具艺术性的图片，只有当模型能够准确地捕捉并解析文本中的语义信息时，它才能生成与文本描述相匹配的图像，否则，生成的图像可能会出现与文本描述不符的情况，这将严重影响用户体验和模型的实际应用价值。因此，如何让模型对齐输入文本的语义且能生成较高质量的图片是研究人员关注的重要研究方向。

2、现实的应用场景中，用户往往使用的是预训练的文生图扩散模型，它在各种任务上表现出色，如在创意艺术设计、广告营销、游戏开发、辅助写作、教育科普、虚拟现实与增强现实中根据文字描述生成高质量图像。基于大规模数据上预训练的文生图可能无法完全满足特定任务的要求，因此文生图扩散模型的微调对于适应特定领域或任务是必要的。通过微调可以调整模型的参数，使其更好地适应特定任务的需求，使模型更具有实用性和适用性。因此，对文生图扩散模型进行微调是提高其在实际应用中效果的重要步骤。

3、其中，基于强化学习的微调方法能改善输入文本到图像的对齐问题，是当下研究的一个热点。但是，当前的强化学习策略存在明显的缺点：首先，现有方法大都依赖人类反馈或额外训练的奖励模型，这一过程需要消耗大量人力物力；其次，目前基于强化学习的微调目标聚焦在生成图像的艺术性以及输入文本与生成图像的对齐程度上，但在实践中发现，只强调文本与图像的对齐程度并不足以强化文生图扩散模型对文本细节的感知能力，在实际的场景中，使用者往往会要求文生图扩散模型能根据文本中的细节生成相应图像，例如特定的实体数量、特殊的场景和风格。因此，需要一种效率高、不依赖额外人力、能更好地让模型理解文本的文生图扩散模型微调方法。

4、而在在软件测试领域，蜕变测试是一种有效的自动化测试方法，其目的是通过对软件系统进行多次变形(改变程序代码或输入数据)，以检测系统是否能够正确处理这些变化而不引入错误。蜕变测试方法的理念是通过对系统进行各种改变，验证其在各种情况下的稳健性和正确性。在蜕变测试中，测试人员基于需求建立内在的蜕变关系，即程序输入满足一定的关系时，其相应的输出也必须满足某种关系，这种关系被称之为蜕变关系。蜕变关系描述了系统在不同输入条件下的行为变化规律，有助于确定测试用例的选择和设计，常见的蜕变关系包括等价类蜕变、边界值蜕变、顺序蜕变等，通过了解和应用蜕变关系，可以更有效地进行蜕变测试，提高测试的覆盖率和效率。蜕变测试即是一种根据蜕变关系构建多组测试用例，然后通过不同测试用例的输出之间对蜕变关系的满足度来发现程序中是否存在缺陷，并对缺陷进行定位的方法。基于对蜕变关系的理解，如何提高文生图扩散模型微调的有效性和效率成为亟需解决的问题。

技术实现思路

1、鉴于上述，本发明的目的是提供一种基于蜕变测试的文生图扩散模型微调方法和系统，为了能够在微调中提高文生图扩散模型对文本细节的理解，按照需求提供特定的蜕变关系集，利用其自动生成输入文本，将其输入到文生图扩散模型后对生成图像执行蜕变测试并检查蜕变关系是否满足，并利用结果计算损失函数对模型参数进行更新，以此完成微调，提高了模型对文本蜕变关系的感知能力，增强文生图扩散模型的图像生成能力。

2、为实现上述发明目的，本发明提供的技术方案如下：

3、第一方面，本发明实施例提供的一种基于蜕变测试的文生图扩散模型微调方法，包括以下步骤：

4、构建包括蜕变关系集和实体集的用例集，基于用例集构建测试文本；

5、将测试文本输入文生图扩散模型中得到生成图像，利用检测模型对生成图像进行图像分析，基于图像分析结果执行蜕变关系检查；

6、基于蜕变关系检查结果构建文生图扩散模型的优化目标函数，利用优化目标函数及其梯度进行迭代更新文生图扩散模型的参数，最终得到微调后的文生图扩散模型。

7、优选地，所述蜕变关系包括数量关系、属性关系和/或风格关系，分别用于表示测试文本的描述与生成图像中实体的数量、属性和风格的对应性。

8、优选地，所述构建包括蜕变关系集和实体集的用例集，基于用例集生成测试文本，包括：

9、构建用于表示蜕变关系的蜕变关系集，蜕变关系集中包括若干组句子模板，构建用于限定文生图扩散模型生成对象的实体集，实体集中包括若干名词，将蜕变关系集和实体集组成文生图扩散模型微调的用例集；

10、将从用例集中选择的句子模版和名词按照预设的逻辑组成满足蜕变关系的一组语句作为测试文本。

11、优选地，所述句子模板中包含零个或至少一个占位符，在构建测试文本时，占位符将被实体集中不同的词语替代，当为零个占位符则不进行替代。

12、优选地，所述利用检测模型对生成图像进行图像分析，包括：

13、检测模型包括物体检测模型、属性检测模型和风格检测模型，将生成图像分别输入物体检测模型、属性检测模型和/或风格检测模型中，对生成图像中实体的数量、实体的属性和/或整体的风格进行分析，得到图像分析结果。

14、优选地，所述基于图像分析结果执行蜕变关系检查，包括：

15、根据不同的蜕变关系执行相应的检查，记录生成图像中对应实体是否满足蜕变关系，将是否满足蜕变关系的检查结果和生成图像组成二元组作为文生图扩散模型构建优化算法目标函数的依据。

16、优选地，所述基于蜕变关系检查结果构建文生图扩散模型的优化目标函数，利用优化目标函数及其梯度进行迭代更新文生图扩散模型的参数，最终得到微调后的文生图扩散模型，包括：

17、将文生图扩散模型中的去噪过程建模为多步马尔可夫决策过程用于优化文生图扩散模型的文生图过程，结合马尔可夫决策过程的优化原理，将文生图扩散模型最终的优化目标函数定义为：

18、

19、其中，为输入的测试文本c和生成图像x0下检测结果的期望，π为将当前给定状态下的下一步去噪结果的条件分布at表示成一个策略即将下一步去噪结果的条件分布视为动作at，即r(x0,c)为奖励函数，表示为：

20、

21、其中，b(x0,c)为生成图像x0和测试文本c下蜕变关系检查结果；

22、计算梯度其中，θ为文生图扩散模型的参数，pθ(·)为扩散过程中某个状态下的下一步去噪结果的条件分布，xt为文生图扩散模型第t步的采样结果，t为文生图扩散模型采样的总步数，利用优化目标函数及其梯度更新文生图扩散模型的参数，使得最大化，通过迭代更新文生图扩散模型的参数，得到微调后的文生图扩散模型。

23、第二方面，为实现上述发明目的，本发明实施例还提供了一种基于蜕变测试的文生图扩散模型微调系统，包括：测试文本生成模块、蜕变测试模块和模型微调模块；

24、所述测试文本生成模块用于构建包括蜕变关系集和实体集的用例集，基于用例集构建测试文本；

25、所述蜕变测试模块用于将测试文本输入文生图扩散模型中得到生成图像，利用检测模型对生成图像进行图像分析，基于图像分析结果执行蜕变关系检查；

26、所述模型微调模块用于基于蜕变关系检查结果构建文生图扩散模型的优化目标函数，利用优化目标函数及其梯度进行迭代更新文生图扩散模型的参数，最终得到微调后的文生图扩散模型。

27、第三方面，为实现上述发明目的，本发明实施例还提供了一种基于蜕变测试的文生图扩散模型微调设备，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于当执行所述计算机程序时，实现上述的基于蜕变测试的文生图扩散模型微调方法。

28、第四方面，为实现上述发明目的，本发明实施例还提供了一种计算机可读的存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被计算机执行时，实现上述的基于蜕变测试的文生图扩散模型微调方法。

29、与现有技术相比，本发明具有的有益效果至少包括：

30、(1)本发明通过构建包括蜕变关系集和实体集的用例集，能够准确捕捉和定义文本中的语义关系，确保了测试的全面性和有效性，并根据用例集自动生成输入文本输入至文生图扩散模型得到生成图像，根据生成图像进行图像分析和蜕变关系检查，能够提高蜕变测试的准确性和可靠性，将蜕变关系检查的结果作为文生图扩散模型微调的重要依据，利用梯度更新模型参数实现微调，通过流程化的设计降低了计算资源和时间成本，保证了模型微调的有效性和效率。

31、(2)本发明的整个微调过程中只有用例集的生成过程需要提供语料库来设置蜕变关系数据和实体数据，整个流程高度自动化，无需进行太多调整即可的得到期望模型，并且常见的模型微调方法依赖于人工或需要额外训练的奖励模型，本发明只在蜕变测试阶段需要使用检测模型，检测模型可以选用通用的检测模型，无需额外训练，节省了人力物力。

32、(3)以往针对文生图扩散模型的微调的目标大都是从艺术性或文本-图像匹配性等方面考虑，本发明以文生图扩散模型对文本细节作为考量标准，考虑到了模型对数量关系、属性关系和风格关系的学习情况，间接量化了文生图扩散模型对于输入文本的理解程度。

33、(4)本发明首次将蜕变测试这一针对软件的测试方法作为奖励函数引入到文生图扩散模型的微调之中，为后续的强化学习思路打开了新方向，构建了端到端的解决方案，整合了软件测试、强化学习和计算机视觉等多种技术，形成了一个完整的自动化文生图扩散模型微调方案，以提高模型在特定任务上的性能，确保生成的图像与输入文本描述高度匹配。