技术新讯 > 计算推算,计数设备的制造及其应用技术 > 模型训练方法、数据处理方法、电子设备及存储介质与流程 > 正文

模型训练方法、数据处理方法、电子设备及存储介质与流程

国知局
2024-11-06 14:37:38

本申请涉及大模型技术、计算机，具体而言，涉及一种模型训练方法、数据处理方法、电子设备及存储介质。

背景技术：

1、在基于大模型的产品中，由于每个服务方都有独特的任务处理要求，因此需要通过监督微调（supervised fine-tuning，sft）的方式进行定制化效果调优，但这种方式面临数据难以获取、训练成本大、迭代速度慢、算法人力投入过大等难题，从而无法在大规模应用中有效地定制化效果调优，由此导致模型无法很好地适应不同的任务处理要求，对于多样性指令的遵循效果不佳。相关技术中为了提升模型对于多样性指令的遵循效果，可以对指令进行多样性进化或者复杂性进化，还可以加入能够通过代码验证的指令数据，但是在面对约束较多的指令时仍然存在局限性，由此导致模型在处理复杂指令时出现误差或无法完全遵循指令。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种模型训练方法、数据处理方法、电子设备及存储介质，以至少解决相关技术中模型对多样性指令的遵循效果差、模型处理性能低下的技术问题。

2、根据本申请实施例的一个方面，提供了一种模型训练方法，包括：采用原始数据集对原始语言处理模型进行预训练，得到第一语言处理模型，其中，原始数据集包括：多个原始数据对，多个原始数据对中的原始提示文本中包含有原始约束；采用扩展数据集对第一语言处理模型进行微调，得到第二语言处理模型，其中，扩展数据集包括：多个扩展数据对，多个扩展数据对中的扩展提示文本中包含有扩展约束，扩展约束通过对原始约束进行扩写后得到；采用偏好数据集对第二语言处理模型进行偏好改进，得到目标语言处理模型，其中，偏好数据集包括：多个偏好数据对，多个偏好数据对为多个扩展数据对中扩展答复文本对扩展约束的遵循程度满足预设验证条件的扩展数据对，目标语言处理模型用于对目标应用场景下的待查询问题进行自然语言理解以生成目标回复。

3、根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：获取查询请求，其中，查询请求中携带的数据包括：目标应用场景下的待查询问题；响应于查询请求，采用目标语言处理模型对待查询问题进行自然语言理解，生成目标回复，其中，目标语言处理模型采用本申请实施例中任意一项的模型训练方法训练得到。

4、根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：获取查询请求，其中，查询请求中携带的数据包括：智能客服场景下的待查询智能客服问题；响应于查询请求，采用目标语言处理模型对待查询智能客服问题进行自然语言理解，生成目标智能客服回复，其中，目标语言处理模型采用本申请实施例中任意一项的模型训练方法训练得到。

5、根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：通过第一应用程序编程接口获取数据处理请求，其中，数据处理请求中携带的请求数据包括：目标应用场景下的待查询问题；通过第二应用程序编程接口返回数据处理响应，其中，数据处理响应中携带的响应数据包括：目标回复，目标回复采用目标语言处理模型对待查询问题进行自然语言理解后生成，目标语言处理模型采用本申请实施例中任意一项的模型训练方法训练得到。

6、根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：获取当前输入的数据处理对话请求，其中，数据处理对话请求中携带的请求数据包括：目标应用场景下的待查询问题；响应于数据处理对话请求，返回数据处理对话回复，其中，数据处理对话回复中携带的信息包括：目标回复，目标回复采用目标语言处理模型对待查询问题进行自然语言理解后生成，目标语言处理模型采用本申请实施例中任意一项的模型训练方法训练得到；在图形用户界面内展示目标回复。

7、根据本申请实施例的另一方面，还提供了一种电子设备，包括：存储器，存储有可执行程序；处理器，用于运行程序，其中，程序运行时执行本申请各个实施例中的方法。

8、根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的可执行程序，其中，在可执行程序运行时控制计算机可读存储介质所在设备执行本申请各个实施例中的方法。

9、根据本申请实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本申请各个实施例中的方法。

10、根据本申请实施例的另一方面，还提供了一种计算机程序产品，包括非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储计算机程序，所述计算机程序被处理器执行时实现本申请各个实施例中的方法。

11、根据本申请实施例的另一方面，还提供了一种计算机程序，计算机程序被处理器执行时实现本申请各个实施例中的方法。

12、在本申请实施例中，通过原始数据集对原始语言处理模型进行预训练，使其能够学习到原始数据对中的信息和约束，从而建立起基础的语言处理能力。然后通过扩展数据集对预训练好的语言处理模型进行微调，引入了扩展约束，使模型能够更好地适应目标应用场景下的问题。最后，通过偏好数据集对微调后的语言处理模型进行偏好改进，进一步提升模型性能，使其能够更好地理解和回复用户的查询问题。由此通过预训练、微调和偏好改进的方式，可以得到一个在目标应用场景下表现更好的目标语言处理模型，能够更准确地理解用户的查询问题并生成更合适的回复，从而提高了模型的实用性和可靠性。通过不断优化和迭代，可以进一步提升模型的性能，使其更好地适应不同的应用场景和需求，从而实现了提升模型对多样性指令的遵循效果以及模型处理性能的技术效果，进而解决了相关技术中模型对多样性指令的遵循效果差、模型处理性能低下的技术问题。

13、容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述模型训练方法还包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述模型训练方法还包括：

4.根据权利要求2或3所述的模型训练方法，其特征在于，基于所述预设约束类库，对所述原始提示文本中包含的所述原始约束进行扩写，得到所述扩展提示文本包括：

5.根据权利要求2所述的模型训练方法，其特征在于，采用所述第三语言处理模型获取所述扩展提示文本对应的所述扩展答复文本包括：

6.根据权利要求1所述的模型训练方法，其特征在于，所述模型训练方法还包括：

7.根据权利要求6所述的模型训练方法，其特征在于，依据所述验证结果对所述扩展数据集进行筛选，得到所述偏好数据集包括：

8.根据权利要求1所述的模型训练方法，其特征在于，采用所述偏好数据集对所述第二语言处理模型进行偏好改进，得到所述目标语言处理模型包括：

9.一种数据处理方法，其特征在于，包括：

10.一种数据处理方法，其特征在于，包括：

11.一种数据处理方法，其特征在于，包括：

12.一种数据处理方法，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的可执行程序，其中，在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的模型训练方法或权利要求9至12中任意一项所述的数据处理方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1至8中任意一项所述的模型训练方法或权利要求9至12中任意一项所述的数据处理方法。

技术总结本申请公开了一种模型训练方法、数据处理方法、电子设备及存储介质，涉及大模型技术、计算机技术领域。其中，该方法包括：采用原始数据集对原始语言处理模型进行预训练，得到第一语言处理模型；采用扩展数据集对第一语言处理模型进行微调，得到第二语言处理模型；采用偏好数据集对第二语言处理模型进行偏好改进，得到目标语言处理模型。本申请解决了相关技术中模型对多样性指令的遵循效果差、模型处理性能低下的技术问题。技术研发人员：余海洋,李永彬,黄非受保护的技术使用者：阿里巴巴（中国）有限公司技术研发日：技术公布日：2024/11/4