技术新讯 > 休闲运动,玩具,娱乐用品的装置及其制品制造技术 > 一种角色扮演对话数据生成方法、系统及计算机程序产品与流程  >  正文

一种角色扮演对话数据生成方法、系统及计算机程序产品与流程

  • 国知局
  • 2024-08-05 11:45:25

本说明书涉及自然语言处理领域,尤其是一种角色扮演对话数据生成方法、系统及计算机程序产品。

背景技术:

1、角色扮演模型能够模仿某一人物设定(或简称为人设)输出符合该人设性别、性格、人格、职业等特征的语言表达。使用角色扮演模型扮演特定角色或人物进行互动,已成为热门研究方向。训练角色扮演模型通常需要大量数据,当样本数据获取成本高、样本数据的多样性比较低时,角色扮演模型的训练效果往往不佳,进而影响角色扮演的效果。

2、为此,本说明书一些实施例旨在提供一种角色扮演对话数据生成方法、装置及相关计算机程序产品,以期提高训练样本的获取效率、增加训练样本的多样性。

技术实现思路

1、本说明书一个或多个实施例提供了一种角色扮演对话数据生成方法,所述方法包括:将多段人设对话数据输入至人设生成模型中,分别得到人设生成模型输出的多个人设描述数据集,其中,所述人设生成模型由人设样本特征及人设样本对话数据训练初始语言模型得到;所述多段人设对话数据中的每一段人设对话数据分别包括不同人设之间的一轮或多轮对话数据;所述多个人设描述数据集中的每一个人设描述数据集分别包括参与对话的其中一个人设的人设描述数据;基于多个人设描述数据集构建人设库;从人设库中选择不同的人设,基于所述不同的人设分别对应的人设描述数据集生成所述不同的人设之间的对话数据,进而得到所述角色扮演对话数据。

2、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述人设生成模型通过如下方式得到:获取人设样本特征及人设样本对话数据;将所述人设样本对话数据输入至初始语言模型,得到初始语言模型输出的人设描述数据集;利用emd计算初始语言模型输出的人设描述数据集与所述人设样本特征的损失值,基于所述损失值迭代更新所述初始语言模型的模型参数,得到所述人设生成模型。

3、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述人设样本对话数据包括三个以上人设之间的对话数据。

4、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述方法进一步包括:将所述人设对话数据、人设生成模型输出的人设描述数据集,组合输入至人设优化模型,得到所述人设优化模型的输出;所述人设优化模型由预设标准样本特征及预设标准样本对话数据训练初始人设优化模型得到;基于所述输出,确定与所述人设生成模型输出的人设描述数据集对应的优化后的人设描述数据集;所述基于多个人设描述数据集构建人设库,包括:将所述优化后的人设描述数据集记录到所述人设库中。

5、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述多段人设对话数据包括目标人设分别与多个其他人设之间的一轮或多轮对话数据;所述人设生成模型输出的多个人设描述数据集包括与所述目标人设对应的多个人设描述数据集;所述方法还包括:将与所述目标人设对应的多个人设描述数据集进行合并,得到所述目标人设的人设描述数据集。

6、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述从人设库中选择不同的人设,基于所述不同的人设分别对应的人设描述数据集,生成所述不同的人设之间的对话数据,包括:从所述人设库选出第一人设及第二人设;将第一人设的第一语句及第一人设和第二人设的人设描述数据集输入至与第二人设对应的第二语言模型,得到第二语言模型输出的第二人设的第一回复语句;将第二人设的第一回复数据、第一人设的第一语句及第一人设和第二人设的人设描述数据集输入至与第一人设对应的第一语言模型,得到第一语言模型输出的第一人设的第二语句;将第一人设的第二语句、第二人设的第一回复语句、第一人设的第一语句及第一人设和第二人设的人设描述数据集,输入至第二语言模型,得到第二人设的第二回复语句;以此类推,利用第一语言模型及第二语言模型交替输出语句,得到第一人设与第二人设之间的对话数据。

7、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述角色扮演对话数据用于训练初始角色扮演模型,得到角色扮演模型。

8、根据本说明书一些实施例所述的角色扮演对话数据生成方法,所述方法进一步包括:基于人设的人设描述数据集计算人设库中不同人设之间的相似度,并基于相似度对人设库中的人设分类,得到一个或多个人设类别;所述从人设库中选择不同的人设,基于所述不同的人设分别对应的人设描述数据集生成所述不同的人设之间的对话数据,包括:从同一人设类别中选出不同的人设,基于所述不同的人设分别对应的人设描述数据集生成所述不同的人设之间的对话数据,进而获得第一特定角色扮演对话数据;从不同人设类别中选出不同的人设,基于所述不同的人设分别对应的人设描述数据集生成所述不同的人设之间的对话数据,进而获得第二特定角色扮演对话数据;所述第一特定角色扮演对话数据以及所述第二特定角色扮演对话数据中的至少一种用于训练所述初始角色扮演模型,得到角色扮演模型。

9、本说明书一个或多个实施例还提供了一种角色扮演对话数据生成系统,所述系统包括:人设输出模块,用于将多段人设对话数据输入至人设生成模型中,分别得到人设生成模型输出的多个人设描述数据集,其中,所述人设生成模型由人设样本特征及人设样本对话数据训练初始语言模型得到;所述多段人设对话数据中的每一段人设对话数据分别包括不同人设之间的一轮或多轮对话数据;所述多个人设描述数据集中的每一个人设描述数据集分别包括参与对话的其中一个人设的人设描述数据;人设库构建模块,用于基于多个人设描述数据集构建人设库;对话数据生成模块,用于从人设库中选择不同的人设,基于所述不同的人设分别对应的人设描述数据集生成所述不同的人设之间的对话数据,进而得到所述角色扮演对话数据。

10、本说明书一个或多个实施例还提供了一种角色扮演对话数据生成装置,包括存储介质及处理器,所述存储介质上存储有计算机指令,所述处理器用于执行所述计算机指令中的至少部分以实现本说明书一个或多个实施例所述的角色扮演对话数据生成方法。

11、本说明书一个或多个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时能够实现本说明书一个或多个实施例所述的角色扮演对话数据生成方法。

12、本说明书一个或多个实施例还提供了一种计算机程序产品,包括计算机指令或计算机程序,所述计算机指令或所述计算机程序被处理器执行时能够实现本说明书一个或多个实施例所述的角色扮演对话数据生成方法。

技术特征:

1.一种角色扮演对话数据生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的角色扮演对话数据生成方法,其特征在于,所述人设生成模型通过如下方式得到:

3.根据权利要求2所述的角色扮演对话数据生成方法,其特征在于,所述人设样本对话数据包括三个以上人设之间的对话数据。

4.根据权利要求1所述的角色扮演对话数据生成方法,其特征在于,所述方法进一步包括:

5.根据权利要求1所述的角色扮演对话数据生成方法,其特征在于,所述多段人设对话数据包括目标人设分别与多个其他人设之间的一轮或多轮对话数据;所述人设生成模型输出的多个人设描述数据集包括与所述目标人设对应的多个人设描述数据集;

6.根据权利要求1所述的角色扮演对话数据生成方法,其特征在于,所述从人设库中选择不同的人设,基于所述不同的人设分别对应的人设描述数据集生成所述不同的人设之间的对话数据,包括:

7.根据权利要求6所述的角色扮演对话数据生成方法,其特征在于,所述角色扮演对话数据用于训练初始角色扮演模型,得到角色扮演模型。

8.根据权利要求7所述的角色扮演对话数据生成方法,其特征在于,所述方法进一步包括:

9.一种角色扮演对话数据生成系统,其特征在于,所述系统包括:

10.一种计算机程序产品,其特征在于,包括计算机指令或计算机程序,所述计算机指令或所述计算机程序被处理器执行时能够实现权利要求1至8任意一项所述的方法。

技术总结本公开提供了一种角色扮演对话数据生成方法、系统及计算机程序产品。其中,本公开中的角色扮演对话数据生成方法包括:将多段人设对话数据输入至人设生成模型中,分别得到人设生成模型输出的多个人设描述数据集,其中,所述多段人设对话数据中的每一段人设对话数据分别包括不同人设之间的一轮或多轮对话数据;多个人设描述数据集中的每一人设描述数据集分别包括参与对话的其中一个人设的人设描述数据;基于多个人设描述数据集构建人设库;从人设库中选择不同的人设,基于不同的人设分别对应的人设描述数据集生成不同的人设之间的对话数据,得到角色扮演对话数据。技术研发人员:鞠美芝,虞连飞,张墨之受保护的技术使用者:上海稀宇科技有限公司技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/259238.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。