技术新讯 > 计算推算,计数设备的制造及其应用技术 > 人设常识知识图谱、人设对话数据集以及人设一致方法  >  正文

人设常识知识图谱、人设对话数据集以及人设一致方法

  • 国知局
  • 2024-10-21 14:54:43

本发明属于对话系统领域,具体涉及一种人设常识知识图谱、人设对话数据集以及人设一致方法。

背景技术:

1、对话系统在客户服务和个人助理等实际应用中发挥着不可替代的作用。在自然语言处理中,开发一个更像人的聊天机器人是一项具有挑战性的任务,其中的关键点在于保持聊天机器人一致的人设。目前关于聊天机器人人设一致性的工作主要集中在识别聊天机器人的回复与其预定义的画像之间的显式冲突。在一些人机交互场景中,聊天机器人会被赋予一个具有一些预定义画像的人设,例如姓名、年龄、爱好等。例如,有研究采用了一个三阶段端到端生成框架,用于生成与预定义画像一致的对话,并检测和删除回复中的不一致单词。有研究提出了一种具有自然语言推理技术的强化学习框架,以增强与预定义画像一致的对话的生成。另一项工作更加注重对话中的上下文一致性,即不同问法下的回复是否保持一致。人类以不同的方式向聊天机器人提问,他们希望得到相同的回答。例如,有研究使用自动问题生成和带有自然语言推理的问题回答,以确保知识型对话中的事实一致性。还有研究利用事件图谱来确定多轮对话的schema,以生成更连贯的对话。

2、然而,现有技术中以画像为中心的人设一致性研究依赖于预定义的完整画像,并且只能检测聊天机器人的回复与其预定义画像之间的直接和明确的人设冲突。在现实世界场景中,一方面,一个完整的聊天机器人画像通常是难以获得的,另一方面,聊天机器人的回复之间存在大量难以识别的间接的人设冲突。现有技术的上下文一致性主要集中在对话的语义一致性和连续性上,这类工作不能处理需要常识知识的隐式人设冲突。

技术实现思路

1、本发明是为了解决上述问题而进行的,目的在于提供一种人设常识知识图谱、人设对话数据集以及人设一致方法。

2、本发明提供了一种人设常识知识图谱构建方法,具有这样的特征,包括以下步骤:步骤s1,选取人类自身特性和日常生活内容中的人设属性设定为画像键;步骤s2,通过人工富集,从互联网平台搜索画像键对应的具体百科数据作为画像值;步骤s3,对所有画像键,将相互关联的两个不同画像键构成画像键对,得到多个画像键对;步骤s4,对每个画像键对,根据画像键对中两个画像键对应的画像值构建画像值对;步骤s5,根据画像值对,通过人工标注得到对应的画像((x,x),r,(y,y)),所有画像构成人设常识知识图谱,其中,(x,x)为头部节点,(y,y)为尾部节点,x和y分别为画像中的两个画像键,x为画像键x对应的一个画像值,y为画像键y对应的一个画像值,r为画像值x和画像值y的一致性关系即一致或不一致。

3、在本发明提供的人设常识知识图谱构建方法中,还可以具有这样的特征:其中,头部节点(x,x)和尾部节点(y,y)的一致性关系r为从头部节点(x,x)到尾部节点(y,y)的有向边。

4、本发明还提供了一种面向对话系统的常识知识引导下的人设一致方法,用于根据人设常识知识图谱,将包含多条提问和对应回复的对话文本中人设不一致的回复改写为人设一致的回复,具有这样的特征,包括以下步骤:步骤t1,选取对话文本中的待识别的回复作为当前回复;步骤t2,将当前回复以及对话文本中当前回复对应的提问和下一条提问输入注意力增强的bert-spc模型,得到当前回复的标签;步骤t3,判断标签是否为人设不一致,若是,则进入步骤t4,若否,则当前回复为人设一致的回复;步骤t4,将当前回复和对应的提问输入p-uie模型,得到当前回复的画像键对;步骤t5,将人设常识知识图谱中画像键对对应的所有画像值对按照权重从大到小排序,选取前n个画像值对;步骤t6,将n个画像值对和对话文本中当前回复之前合计7条提问和回复分别输入生成模型t5的不同编码器,得到对应的编码输出;步骤t7,将所有编码输出进行拼接再解码,得到人设一致的回复;步骤t8,在对话文本中以人设一致的回复替换当前回复,则完成改写,其中,人设常识知识图谱为如上任意一项的人设常识知识图谱构建方法构建得到。

5、在本发明提供的面向对话系统的常识知识引导下的人设一致方法中,还可以具有这样的特征:其中,步骤t2中的注意力增强的bert-spc模型包括自注意力机制和bert-spc模型,得到当前回复的标签的具体公式表示为:po,so=bs([spost;scur;spre]),h=po+hatt,式中spost、scur和spre分别为当前回复的下一条提问、当前回复和当前回复对应的提问,bs为bert-spc模型,po为当前回复的句子语义的表示,so为bert-spc模型输出的最后一层中的隐藏状态,tt为分词类型索引,为被掩码的句子输出,att为自注意力机制,hatt为注意力隐藏状态,h为最终隐藏状态,den为dense层,为注意力增强的bert-spc模型,为注意力增强的bert-spc模型的人设一致性分类器,l为当前回复的标签。

6、在本发明提供的面向对话系统的常识知识引导下的人设一致方法中,还可以具有这样的特征:其中,通过对抗训练方法fgm,结合动态衰减学习率和十折交叉验证对步骤t2中的注意力增强的bert-spc模型进行训练,损失函数为binary focal loss。

7、在本发明提供的面向对话系统的常识知识引导下的人设一致方法中,还可以具有这样的特征:其中,步骤t4中的p-uie模型的构建过程为:将训练句子和训练句子中的画像键对输入uie-base模型,对输出的画像值对进行f1评分,根据f1评分对uie-base模型进行微调,得到p-uie模型。

8、在本发明提供的面向对话系统的常识知识引导下的人设一致方法中,还可以具有这样的特征:其中,步骤s5中权重的计算过程如下:从对话平台收集多组中文多轮对话,从每组中文多轮对话中检索包含人设常识知识图谱的画像键对的回答句子,将回答句子与中文多轮对话中回答句子前面的三个句子作为对话块,计算在所有对话块中画像键对对应的各个画像值对出现的频率,画像值对的频率与画像键对对应的所有画像值对的频率和的比值为画像值对的权重。

9、本发明还提供了一种人设对话数据集的构建方法,具有这样的特征,包括以下步骤:步骤r1,对人设常识知识图谱中的各个画像设计多个问答模板,并将画像键和画像值放入对应的多个问答模板,得到多个问答对;步骤r2,从开源数据集dulemon中收集包含人设常识知识图谱中画像键的对话,作为原始对话块;步骤r3,根据人设常识知识图谱,检索原始对话块中的画像键和画像值,将检索到的画像键或检索到的画像值对应的画像键作为标记画像键;步骤r4,在人设常识知识图谱中检索包含标记画像键的头部节点对应的画像,从画像的尾部节点中的画像键对应的所有问答对中随机选取一个问答对,将选取的问答对插在标记画像键所在的句子之后,得到新对话块;步骤r5,对所有原始对话块执行步骤r3至步骤r4,得到的所有新对话块构成人设对话数据集,其中,人设常识知识图谱为通过如上任意一项的人设常识知识图谱构建方法构建得到。

10、发明的作用与效果

11、根据本发明所涉及的人设常识知识图谱、人设对话数据集以及人设一致方法,因为通过画像键设定和人工富集画像值,构建了能够表述两个画像值间人设一致性与否的人设常识知识图谱,利用人设常识知识图谱在现有开源数据集的基础上,插入基于问答模板的问答对,构建人设对话数据集,通过注意力增强的bert-spc模型和人设常识知识图谱识别待检测回复是否与上文人设不一致,利用p-uie模型提取不一致回复中的画像键对,根据权重选取画像值对构造人设一致回复替代原本人设不一致的回复,从而实现对话回复的人设一致,所以,本发明的人设常识知识图谱、人设对话数据集以及人设一致方法能够处理对话中存在的基于常识知识的隐式人设冲突。

本文地址:https://www.jishuxx.com/zhuanli/20241021/319744.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。