一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

对话生成模型训练方法和装置、对话生成方法、电子设备与流程

2022-05-18 07:05:10 来源:中国专利 TAG:

技术特征:
1.一种对话生成模型训练方法,其特征在于,所述方法包括:获取对话系统的历史对话信息;根据所述历史对话信息构建历史状态信息;对所述历史对话信息进行提取处理,得到历史奖励信息;根据所述历史状态信息得到历史行为信息;根据所述历史状态信息、所述历史行为信息、所述历史奖励信息构建三元组;将所述三元组输入到预设的原始对话模型中进行训练处理,得到对话生成模型;所述对话生成模型用于生成目标对话。2.根据权利要求1所述的方法,其特征在于,所述对所述历史对话信息进行提取处理,得到历史奖励信息,包括:对所述历史对话信息进行分类处理,得到对话节奏信息、对话内容信息和对话时间信息;其中,所述对话时间信息包括用于表征维持历史对话时长的对话时长信息和用于表征历史对话轮数的对话轮数信息;将所述对话节奏信息、所述对话内容信息和所述对话时间信息输入到预设的对话奖励模型中进行奖励值计算,得到所述历史奖励信息。3.根据权利要求2所述的方法,其特征在于,所述将所述对话节奏信息、所述对话内容信息和所述对话时间信息输入到预设的对话奖励模型中进行奖励值计算,得到所述历史奖励信息,包括:根据预设的对话节奏规则对所述对话节奏信息进行奖励计算,得到对话节奏奖励;根据预设的预训练模型对所述对话内容信息进行特征提取,得到对话内容奖励;根据预设的对话时间规则对所述对话时间信息进行奖励计算,得到对话时间奖励;根据所述对话节奏奖励、所述对话内容奖励和所述对话时间奖励得到所述历史奖励信息。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述原始对话模型包括神经网络模型和深度学习模型;所述将所述三元组输入到预设的原始对话模型中进行训练处理,得到对话生成模型,包括:将所述三元组中的历史状态信息输入到预设的神经网络模型;根据所述神经网络模型对所述历史状态信息进行基特征提取,得到对话特征向量;将所述对话特征向量、所述历史奖励信息和所述历史行为信息输入所述深度学习模型中进行训练处理,得到所述对话生成模型。5.根据权利要求4所述的方法,其特征在于,所述神经网络模型包括:第一神经网络、第二神经网络、第三神经网络和第四神经网络;所述历史状态信息包括:对话文本信息、对话产品信息、对话序列信息和表述状态信息;所述根据所述神经网络模型对所述历史状态信息进行基特征提取,得到对话特征向量,包括:通过所述第一神经网络对所述对话文本信息进行特征提取,得到文本特征向量;通过所述第二神经网络对所述对话产品信息进行特征提取,得到产品特征向量;通过所述第三神经网络对所述对话序列信息进行特征提取,得到序列特征向量;
通过所述第四神经网络对所述表述状态信息进行特征提取,得到表述特征向量;将所述文本特征向量、所述产品特征向量、所述序列特征向量和所述表述特征向量进行拼接处理,得到所述对话特征向量。6.根据权利要求4所述的方法,其特征在于,所述深度学习模型包括:第一强化学习模型和第二强化学习模型;所述将所述对话特征向量、所述历史奖励信息和所述历史行为信息输入所述深度学习模型中进行训练处理,得到所述对话生成模型,包括:将所述对话特征向量输入至所述第一强化学习模型中,得到第一强化值;将所述第一强化值、所述历史奖励信息和所述历史行为信息输入至所述第二强化学习模型中进行迭代更新,得到所述对话生成模型。7.一种对话生成方法,其特征在于,所述方法包括:获取对话系统的当前对话信息;根据所述当前对话信息构建当前状态信息;将所述当前对话信息输入至对话生成模型进行对话生成处理,得到目标对话;其中,所述对话生成模型为根据如权利要求1至6任一项所述的方法训练。8.一种对话生成模型训练装置,其特征在于,所述装置包括:获取模块,用于获取对话系统的历史对话信息;第一构建模块,用于根据所述历史对话信息构建历史状态信息;提取模块,用于对所述历史对话信息进行提取处理,得到历史奖励信息;处理模块,用于根据所述历史状态信息得到历史行为信息;第二构建模块,用于根据所述历史状态信息、所述历史行为信息、所述历史奖励信息构建三元组;训练模块,用于将所述三元组输入到预设的原始对话模型中进行训练处理,得到对话生成模型;所述对话生成模型用于生成目标对话。9.一种电子设备,其特征在于,包括:至少一个存储器;至少一个处理器;至少一个计算机程序;所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现:如权利要求1至6任一项所述的方法;或者如权利要求7所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:如权利要求1至6任一项所述的方法;或者如权利要求7所述的方法。

技术总结
本实施例涉及人工智能技术领域,尤其涉及一种对话生成模型训练方法和装置、对话生成方法、电子设备。对话生成模型训练方法包括:获取对话系统的历史对话信息;根据所述历史对话信息构建历史状态信息;对所述历史对话信息进行提取处理,得到历史奖励信息;根据所述历史状态信息得到历史行为信息;根据所述历史状态信息、所述历史行为信息、所述历史奖励信息构建三元组;将所述三元组输入到预设的原始对话模型中进行训练处理,得到对话生成模型;所述对话生成模型用于生成目标对话。本申请实施例的技术方案,能够提高模型生成对话的准确性。能够提高模型生成对话的准确性。能够提高模型生成对话的准确性。


技术研发人员:袁梦菲 赵亮
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2022.02.14
技术公布日:2022/5/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献