技术新讯 > 计算推算,计数设备的制造及其应用技术 > 图像处理方法、模型训练方法、装置和电子设备与流程 > 正文

图像处理方法、模型训练方法、装置和电子设备与流程

国知局
2024-10-09 14:41:56

本公开涉及图像处理，尤其涉及一种图像处理方法、模型训练方法、装置、电子设备和存储介质。

背景技术：

1、图像的处理区域指的是需要进行图像处理的区域，定位图像的处理区域对于图像处理至关重要。然而，相关技术中的图像处理方法，大多需要人工手动涂抹处理区域，以实现处理区域的定位，存在用户操作复杂的问题。

技术实现思路

1、本公开提供一种图像处理方法、模型训练方法、装置、电子设备、计算机可读存储介质、计算机程序产品，以至少解决相关技术中大多需要人工手动涂抹处理区域，存在用户操作复杂的问题。本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种图像处理方法，包括：获取原始图像和所述原始图像的掩膜；基于所述原始图像的掩膜，从所述原始图像中擦除所述原始图像的非处理区域，得到第一图像；基于所述原始图像的掩膜，从所述原始图像中擦除所述原始图像的处理区域，得到第二图像；将所述第一图像和所述第二图像输入至图像处理模型，由所述图像处理模型输出所述原始图像处理后的目标图像。

3、在本公开的一个实施例中，所述将所述第一图像和所述第二图像输入至图像处理模型，由所述图像处理模型输出所述原始图像处理后的目标图像，包括：将所述第一图像、所述第二图像和所述原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述目标图像。

4、在本公开的一个实施例中，所述图像处理模型为扩散模型，所述将所述第一图像和所述第二图像输入至图像处理模型，由所述图像处理模型输出所述原始图像处理后的目标图像，包括：将纯噪声图像、所述第一图像和所述第二图像输入至所述图像处理模型；通过所述图像处理模型基于所述第一图像和所述第二图像，对所述纯噪声图像进行去噪处理，得到所述目标图像。

5、在本公开的一个实施例中，所述将纯噪声图像、所述第一图像和所述第二图像输入至所述图像处理模型，包括：将所述纯噪声图像、所述第一图像、所述第二图像和所述原始图像的掩膜输入至所述图像处理模型；所述通过所述图像处理模型基于所述第一图像和所述第二图像，对所述纯噪声图像进行去噪处理，得到所述目标图像，包括：通过所述图像处理模型基于所述第一图像、所述第二图像和所述原始图像的掩膜，对所述纯噪声图像进行去噪处理，得到所述目标图像。

6、在本公开的一个实施例中，所述将所述纯噪声图像、所述第一图像、所述第二图像和所述原始图像的掩膜输入至所述图像处理模型，包括：将所述纯噪声图像、所述第一图像、所述第二图像、所述原始图像的掩膜和总时间步t输入至所述图像处理模型，其中，t为正整数；

7、所述通过所述图像处理模型基于所述第一图像、所述第二图像和所述原始图像的掩膜，对所述纯噪声图像进行去噪处理，得到所述目标图像，包括：将所述纯噪声图像作为当前时间步的图像，并将t作为当前时间步，其中，所述当前时间步为不大于t的正整数；通过所述图像处理模型基于所述当前时间步的图像、所述第一图像、所述第二图像、所述原始图像的掩膜和所述当前时间步，得到当前时间步的噪声；通过所述图像处理模型从所述当前时间步的图像中去除所述当前时间步的噪声，得到当前时间步的上一时间步的图像；将所述当前时间步的图像更新为所述当前时间步的上一时间步的图像，并将所述当前时间步更新为所述当前时间步的上一时间步；返回执行所述通过所述图像处理模型基于所述当前时间步的图像、所述第一图像、所述第二图像、所述原始图像的掩膜和所述当前时间步，得到当前时间步的噪声及其后续步骤，直至所述当前时间步为初始时间步；通过所述图像处理模型从初始时间步的图像中去除初始时间步的噪声，得到所述目标图像。

8、在本公开的一个实施例中，所述原始图像的处理区域的像素点在所述原始图像的掩膜中的像素值为1，所述原始图像的非处理区域的像素点在所述原始图像的掩膜中的像素值为0；

9、所述基于所述原始图像的掩膜，从所述原始图像中擦除所述原始图像的非处理区域，得到第一图像，包括：获取所述原始图像的第i个像素点在所述原始图像中的第一像素值，其中，i为正整数；获取所述第i个像素点在所述原始图像的掩膜中的第二像素值；获取所述第一像素值与所述第二像素值的乘积，作为所述第i个像素点在所述第一图像中的第三像素值；基于所述原始图像的多个像素点在所述第一图像中的第三像素值，生成所述第一图像。

10、在本公开的一个实施例中，所述原始图像的处理区域的像素点在所述原始图像的掩膜中的像素值为1，所述原始图像的非处理区域的像素点在所述原始图像的掩膜中的像素值为0；

11、所述基于所述原始图像的掩膜，从所述原始图像中擦除所述原始图像的处理区域，得到第二图像，包括：获取所述原始图像的第i个像素点在所述原始图像中的第一像素值，其中，i为正整数；获取所述第i个像素点在所述原始图像的掩膜中的第二像素值；获取1与所述第二像素值之间的差值；获取所述第一像素值与所述差值的乘积，作为所述第i个像素点在所述第二图像中的第四像素值；基于所述原始图像的多个像素点在所述第二图像中的第四像素值，生成所述第二图像。

12、在本公开的一个实施例中，所述将所述第一图像和所述第二图像输入至图像处理模型，由所述图像处理模型输出所述原始图像处理后的目标图像，包括：获取用户录入的针对所述原始图像的目标文本；将所述目标文本输入至大模型，由所述大模型输出所述用户针对所述原始图像的处理意图；基于所述原始图像的处理意图，得到所述图像处理模型的提示文本；将所述第一图像、所述第二图像和所述图像处理模型的提示文本输入至所述图像处理模型，由所述图像处理模型输出所述目标图像。

13、在本公开的一个实施例中，所述方法还包括：获取用户录入的针对所述原始图像的目标文本；将所述目标文本输入至大模型，由所述大模型输出所述用户针对所述原始图像的处理意图；将所述原始图像和所述原始图像的处理意图输入至感知模型，通过所述感知模型基于所述原始图像的处理意图，确定所述原始图像的处理区域；通过所述感知模型基于所述原始图像和所述原始图像的处理区域，生成所述原始图像的掩膜。

14、根据本公开实施例的第二方面，提供一种模型训练方法，包括：获取样本原始图像、所述样本原始图像的掩膜和所述样本原始图像处理后的样本目标图像；基于所述样本原始图像的掩膜，从所述样本原始图像中擦除所述样本原始图像的非处理区域，得到样本第一图像；基于所述样本原始图像的掩膜，从所述样本原始图像中擦除所述样本原始图像的处理区域，得到样本第二图像；基于所述样本第一图像、所述样本第二图像和所述样本目标图像，对图像处理模型进行训练。

15、在本公开的一个实施例中，所述基于所述样本第一图像、所述样本第二图像和所述样本目标图像，对图像处理模型进行训练，包括：将所述样本第一图像和所述样本第二图像输入至所述图像处理模型，由所述图像处理模型输出所述样本原始图像处理后的预测图像；基于所述样本目标图像和所述预测图像，对所述图像处理模型进行训练。

16、在本公开的一个实施例中，所述将所述样本第一图像和所述样本第二图像输入至所述图像处理模型，由所述图像处理模型输出所述样本原始图像处理后的预测图像，包括：将所述样本第一图像、所述样本第二图像和所述样本原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述预测图像。

17、在本公开的一个实施例中，所述图像处理模型为扩散模型，所述基于所述样本第一图像、所述样本第二图像和所述样本目标图像，对图像处理模型进行训练，包括：基于样本噪声，对所述样本目标图像进行加噪处理，得到样本加噪图像；将所述样本加噪图像、所述样本第一图像和所述样本第二图像输入至所述图像处理模型，由所述图像处理模型输出所述样本加噪图像中的预测噪声；基于所述样本噪声和所述预测噪声，对所述图像处理模型进行训练。

18、在本公开的一个实施例中，所述将所述样本加噪图像、所述样本第一图像和所述样本第二图像输入至所述图像处理模型，由所述图像处理模型输出所述样本加噪图像中的预测噪声，包括：将所述样本加噪图像、所述样本第一图像、所述样本第二图像和所述样本原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述预测噪声。

19、在本公开的一个实施例中，所述方法还包括：从设定时间步区间中选取样本时间步，并基于所述样本时间步生成所述样本噪声；

20、所述将所述样本加噪图像、所述样本第一图像、所述样本第二图像和所述样本原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述预测噪声，包括：将所述样本加噪图像、所述样本第一图像、所述样本第二图像、所述样本原始图像的掩膜和所述样本时间步输入至所述图像处理模型，由所述图像处理模型输出样本时间步的噪声，作为所述预测噪声。

21、据本公开实施例的第三方面，提供一种图像处理装置，包括：获取模块，被配置为执行获取原始图像和所述原始图像的掩膜；第一擦除模块，被配置为执行基于所述原始图像的掩膜，从所述原始图像中擦除所述原始图像的非处理区域，得到第一图像；第二擦除模块，被配置为执行基于所述原始图像的掩膜，从所述原始图像中擦除所述原始图像的处理区域，得到第二图像；处理模块，被配置为执行将所述第一图像和所述第二图像输入至图像处理模型，由所述图像处理模型输出所述原始图像处理后的目标图像。

22、在本公开的一个实施例中，所述处理模块，还被配置为执行：将所述第一图像、所述第二图像和所述原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述目标图像。

23、在本公开的一个实施例中，所述图像处理模型为扩散模型，所述处理模块，还被配置为执行：将纯噪声图像、所述第一图像和所述第二图像输入至所述图像处理模型；通过所述图像处理模型基于所述第一图像和所述第二图像，对所述纯噪声图像进行去噪处理，得到所述目标图像。

24、在本公开的一个实施例中，所述处理模块，还被配置为执行：将所述纯噪声图像、所述第一图像、所述第二图像和所述原始图像的掩膜输入至所述图像处理模型；通过所述图像处理模型基于所述第一图像、所述第二图像和所述原始图像的掩膜，对所述纯噪声图像进行去噪处理，得到所述目标图像。

25、在本公开的一个实施例中，所述处理模块，还被配置为执行：将所述纯噪声图像、所述第一图像、所述第二图像、所述原始图像的掩膜和总时间步t输入至所述图像处理模型，其中，t为正整数；将所述纯噪声图像作为当前时间步的图像，并将t作为当前时间步，其中，所述当前时间步为不大于t的正整数；通过所述图像处理模型基于所述当前时间步的图像、所述第一图像、所述第二图像、所述原始图像的掩膜和所述当前时间步，得到当前时间步的噪声；通过所述图像处理模型从所述当前时间步的图像中去除所述当前时间步的噪声，得到当前时间步的上一时间步的图像；将所述当前时间步的图像更新为所述当前时间步的上一时间步的图像，并将所述当前时间步更新为所述当前时间步的上一时间步；返回执行所述通过所述图像处理模型基于所述当前时间步的图像、所述第一图像、所述第二图像、所述原始图像的掩膜和所述当前时间步，得到当前时间步的噪声及其后续步骤，直至所述当前时间步为初始时间步；通过所述图像处理模型从初始时间步的图像中去除初始时间步的噪声，得到所述目标图像。

26、在本公开的一个实施例中，所述原始图像的处理区域的像素点在所述原始图像的掩膜中的像素值为1，所述原始图像的非处理区域的像素点在所述原始图像的掩膜中的像素值为0；

27、所述第一擦除模块，还被配置为执行：获取所述原始图像的第i个像素点在所述原始图像中的第一像素值，其中，i为正整数；获取所述第i个像素点在所述原始图像的掩膜中的第二像素值；获取所述第一像素值与所述第二像素值的乘积，作为所述第i个像素点在所述第一图像中的第三像素值；基于所述原始图像的多个像素点在所述第一图像中的第三像素值，生成所述第一图像。

28、在本公开的一个实施例中，所述原始图像的处理区域的像素点在所述原始图像的掩膜中的像素值为1，所述原始图像的非处理区域的像素点在所述原始图像的掩膜中的像素值为0；

29、所述第二擦除模块，还被配置为执行：获取所述原始图像的第i个像素点在所述原始图像中的第一像素值，其中，i为正整数；获取所述第i个像素点在所述原始图像的掩膜中的第二像素值；获取1与所述第二像素值之间的差值；获取所述第一像素值与所述差值的乘积，作为所述第i个像素点在所述第二图像中的第四像素值；基于所述原始图像的多个像素点在所述第二图像中的第四像素值，生成所述第二图像。

30、在本公开的一个实施例中，所述处理模块，还被配置为执行：获取用户录入的针对所述原始图像的目标文本；将所述目标文本输入至大模型，由所述大模型输出所述用户针对所述原始图像的处理意图；基于所述原始图像的处理意图，得到所述图像处理模型的提示文本；将所述第一图像、所述第二图像和所述图像处理模型的提示文本输入至所述图像处理模型，由所述图像处理模型输出所述目标图像。

31、在本公开的一个实施例中，所述获取模块，还被配置为执行：获取用户录入的针对所述原始图像的目标文本；将所述目标文本输入至大模型，由所述大模型输出所述用户针对所述原始图像的处理意图；将所述原始图像和所述原始图像的处理意图输入至感知模型，通过所述感知模型基于所述原始图像的处理意图，确定所述原始图像的处理区域；通过所述感知模型基于所述原始图像和所述原始图像的处理区域，生成所述原始图像的掩膜。

32、根据本公开实施例的第四方面，提供一种模型训练装置，包括：获取模块，被配置为执行获取样本原始图像、所述样本原始图像的掩膜和所述样本原始图像处理后的样本目标图像；第一擦除模块，被配置为执行基于所述样本原始图像的掩膜，从所述样本原始图像中擦除所述样本原始图像的非处理区域，得到样本第一图像；第二擦除模块，被配置为执行基于所述样本原始图像的掩膜，从所述样本原始图像中擦除所述样本原始图像的处理区域，得到样本第二图像；训练模块，被配置为执行基于所述样本第一图像、所述样本第二图像和所述样本目标图像，对图像处理模型进行训练。

33、在本公开的一个实施例中，所述训练模块，还被配置为执行：将所述样本第一图像和所述样本第二图像输入至所述图像处理模型，由所述图像处理模型输出所述样本原始图像处理后的预测图像；基于所述样本目标图像和所述预测图像，对所述图像处理模型进行训练。

34、在本公开的一个实施例中，所述训练模块，还被配置为执行：将所述样本第一图像、所述样本第二图像和所述样本原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述预测图像。

35、在本公开的一个实施例中，所述图像处理模型为扩散模型，所述训练模块，还被配置为执行：基于样本噪声，对所述样本目标图像进行加噪处理，得到样本加噪图像；将所述样本加噪图像、所述样本第一图像和所述样本第二图像输入至所述图像处理模型，由所述图像处理模型输出所述样本加噪图像中的预测噪声；基于所述样本噪声和所述预测噪声，对所述图像处理模型进行训练。

36、在本公开的一个实施例中，所述训练模块，还被配置为执行：将所述样本加噪图像、所述样本第一图像、所述样本第二图像和所述样本原始图像的掩膜输入至所述图像处理模型，由所述图像处理模型输出所述预测噪声。

37、在本公开的一个实施例中，所述训练模块，还被配置为执行：从设定时间步区间中选取样本时间步，并基于所述样本时间步生成所述样本噪声；

38、所述训练模块，还被配置为执行：将所述样本加噪图像、所述样本第一图像、所述样本第二图像、所述样本原始图像的掩膜和所述样本时间步输入至所述图像处理模型，由所述图像处理模型输出样本时间步的噪声，作为所述预测噪声。

39、根据本公开实施例的第五方面，提供一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为实现本公开实施例第一方面、第二方面所述方法的步骤。

40、根据本公开实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开实施例第一方面、第二方面所述方法的步骤。

41、根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被电子设备的处理器执行时实现如本公开实施例第一方面、第二方面所述方法的步骤。

42、本公开的实施例提供的技术方案至少带来以下有益效果：可综合考虑到原始图像和原始图像的掩膜，分别生成第一图像和第二图像，并利用第一图像和第二图像，引导图像处理模型进行图像处理，从而图像处理模型可精准定位并区分原始图像的处理区域和非处理区域，使得非处理区域保真性提升，避免非处理区域改变，提高了图像处理精度，且不需要人工手动涂抹处理区域，可实现处理区域的自动定位，简化了用户操作，适用于人像处理的应用场景。

43、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。