决策模型训练方法以及装置、信息处理方法以及装置与流程
- 国知局
- 2025-01-10 13:29:32
本说明书实施例涉及机器学习,特别涉及决策模型训练方法以及装置、信息处理方法以及装置。
背景技术:
1、随着互联网和计算机技术的发展,决策模型在越来越多的领域中得以应用,决策模型在特定决策情境下,可以通过建立数学或逻辑模型来分析和解决问题。其主要用于描述和解决决策问题,帮助决策者在复杂环境中做出最优或满意的决策。如电子商务平台的广告投放系统、搜索引擎优化工具、游戏ai决策系统、机器人路径规划等,都可以通过决策模型完成执行阶段不同任务的决策信息预测。现有技术中,传统的决策模型,如专家系统、规划算法和强化学习等,其在特定应用任务中表现良好,但是在面对新的或未预见的任务时,泛化能力较差,无法提供稳定的决策服务,因此亟需一种有效的方案以解决上述问题。
技术实现思路
1、有鉴于此,本说明书实施例提供了一种决策模型训练方法。本说明书一个或者多个实施例同时涉及一种决策模型训练方法,一种信息处理方法,一种信息处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,以解决现有技术中存在的技术缺陷。
2、根据本说明书实施例的第一方面,提供了一种决策模型训练方法,包括:
3、按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据;
4、在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理,获得预测奖励数据;
5、利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型;
6、按照所述决策数据构建策略将服务任务对应的服务数据处理为服务序列数据,并利用所述服务序列数据将所述初始决策模型优化为所述服务任务对应的服务决策模型。
7、根据本说明书实施例的第二面,提供了一种信息处理方法,包括:
8、接收客户端针对目标服务提交的服务信息;
9、将所述服务信息输入至所述目标服务关联的服务决策模型进行处理,获得服务决策信息,其中,所述服务决策模型通过上述方法训练获得;
10、将所述服务决策信息反馈至所述客户端。
11、根据本说明书实施例的第三方面,提供了另一种决策模型训练方法,应用于云侧设备,包括:
12、按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据;
13、在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理,获得预测奖励数据;
14、利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型;
15、在接收到端侧设备针对所述初始决策模型提交优化请求的情况下,根据所述优化请求确定服务数据;
16、按照所述决策数据构建策略将所述服务数据处理为服务序列数据,并利用所述服务序列数据将所述初始决策模型优化为服务决策模型。
17、根据本说明书实施例的第四方面,提供了一种决策模型训练装置,包括:
18、策略处理模块,被配置为按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据;
19、模型处理模块,被配置为在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理,获得预测奖励数据;
20、更新模型模块,被配置为利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型;
21、优化模型模块,被配置为按照所述决策数据构建策略将服务任务对应的服务数据处理为服务序列数据,并利用所述服务序列数据将所述初始决策模型优化为所述服务任务对应的服务决策模型。
22、根据本说明书实施例的第五方面,提供了一种信息处理装置,包括:
23、接收信息模块,被配置为接收客户端针对目标服务提交的服务信息;
24、处理信息模块,被配置为将所述服务信息输入至所述目标服务关联的服务决策模型进行处理,获得服务决策信息,其中,所述服务决策模型通过上述方法训练获得;
25、发送信息模块,被配置为将所述服务决策信息反馈至所述客户端。
26、根据本说明书实施例的第六方面,提供了另一种决策模型训练装置,应用于云侧设备,包括:
27、处理模块,被配置为按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据;
28、输入模块,被配置为在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理,获得预测奖励数据;
29、更新模块,被配置为利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型;
30、确定模块,被配置为在接收到端侧设备针对所述初始决策模型提交优化请求的情况下,根据所述优化请求确定服务数据;
31、优化模块,被配置为按照所述决策数据构建策略将所述服务数据处理为服务序列数据,并利用所述服务序列数据将所述初始决策模型优化为服务决策模型。
32、根据本说明书实施例的第七方面,提供了一种计算设备,包括:
33、存储器和处理器;
34、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述决策模型训练方法或信息处理方法的步骤。
35、根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述决策模型训练方法或信息处理方法的步骤。
36、根据本说明书实施例的第九方面,提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述决策模型训练方法或信息处理方法的步骤。
37、本实施例提供的决策模型训练方法,为了能够提高决策模型在决策任务中的有效性和适应性,便于下游服务应用。可以先训练一个通用的决策模型。此过程中,可以先按照预设的决策数据构建策略将关联目标语言模型的样本数据处理为样本序列数据;此时可以先在样本序列数据中提取样本状态数据和样本动作数据输入至目标语言模型进行处理,从而可以根据处理结果获得预测奖励数据;在此基础上,即可先利用样本序列数据中的样本奖励数据和预测奖励数据,将目标语言模型更新为初始决策模型;实现利用调参后的语言模型作为决策模型,可以使得模型具有更强的泛化能力。此后,再按照决策数据构建策略将服务任务对应的服务数据处理为服务序列数据,并利用服务序列数据将初始决策模型优化为服务任务对应的服务决策模型。即可实现将通用决策模型训练为关联服务任务的服务决策模型,使得服务决策模型可以在服务任务维度下具有更强的决策能力,且更加适应服务任务对应的服务环境,更加便于服务下游使用。
技术特征:1.一种决策模型训练方法,包括:
2.根据权利要求1所述的决策模型训练方法,所述按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据,包括:
3.根据权利要求2所述的决策模型训练方法,所述按照预设的决策数据构建策略对所述样本数据进行检测步骤执行之后,还包括:
4.根据权利要求1所述的决策模型训练方法,所述利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型,包括:
5.根据权利要求1所述的决策模型训练方法,所述按照所述决策数据构建策略将服务任务对应的服务数据处理为服务序列数据,包括:
6.根据权利要求1所述的决策模型训练方法,所述利用所述服务序列数据将所述初始决策模型优化为所述服务任务对应的服务决策模型,包括:
7.根据权利要求1至6任一项所述的决策模型训练方法,所述按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据步骤执行之前,还包括:
8.一种信息处理方法,包括:
9.一种决策模型训练方法,应用于云侧设备,包括:
10.一种决策模型训练装置,包括:
11.一种信息处理装置,包括:
12.一种决策模型训练装置,应用于云侧设备,包括:
13.一种计算设备,包括:
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述方法的步骤。
15.一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现权利要求1至9任意一项所述方法的步骤。
技术总结本说明书实施例提供决策模型训练方法以及装置、信息处理方法以及装置,其中所述决策模型训练方法包括:按照预设的决策数据构建策略,将关联目标语言模型的样本数据处理为样本序列数据;在所述样本序列数据中提取样本状态数据和样本动作数据输入至所述目标语言模型进行处理,获得预测奖励数据;利用所述样本序列数据中的样本奖励数据和所述预测奖励数据,将所述目标语言模型更新为初始决策模型;按照所述决策数据构建策略将服务任务对应的服务数据处理为服务序列数据,并利用所述服务序列数据将所述初始决策模型优化为所述服务任务对应的服务决策模型。技术研发人员:张煜,刘浩翔,姜飞俊,骆卫华,张凯夫受保护的技术使用者:杭州阿里巴巴海外互联网产业有限公司技术研发日:技术公布日:2025/1/6本文地址:https://www.jishuxx.com/zhuanli/20250110/353447.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表