技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于多视图会话查询产生的方法与装置与流程  >  正文

用于多视图会话查询产生的方法与装置与流程

  • 国知局
  • 2024-11-25 15:21:34

本公开内容总体上涉及查询生成,并且更特别地,涉及用于多视图会话查询产生的方法和装置。

背景技术:

1、会话查询生成旨在从对话历史产生搜索查询,以反映下一对话主题,其中,查询通常用于从知识源(例如,搜索引擎)中检索相关知识,以帮助基于知识的对话系统。利用外部知识已经被证明对于对话响应生成是重要的。遵循该研究方向,探索作为外部知识的互联网因其不断更新的内容和对各种领域的覆盖而正在越来越受欢迎。为了从网络检索有用的知识,提出了查询产生的任务以从对话上下文收集搜索查询,以用于与搜索引擎有效地进行交互。因为生成的查询的质量直接影响检索到的知识与当前对话上下文的关联性,因此该项任务至关重要。

2、当前的努力将查询产生视为典型的文本到文本生成问题,并且采用transformer架构作为构建查询生成器的主干。作为惯例,可以采用预训练的编码器-解码器模型,例如bart[2]或t5[3],并且对具有标准交叉熵(cross entropy,ce)损失的带注释的查询生成数据集进行进一步微调。

3、为了完美生成黄金查询,先前的模型面临忠实性(例如,准确性)和数据饥饿(例如,数据量)问题,其中,这些模型需要大量的训练数据,并且在推断时产生的查询可能遗漏来自对话上下文的重要概念。带注释的黄金查询的大的变化是造成这些问题的主要原因。本文呈现了缓解这些问题的改进。

技术实现思路

1、以下呈现了本公开内容的一个或更多个实施方式的简化概述,以提供对这样的实施方式的基本理解。该概述不是对所有设想的实施方式的广泛综述,并且既不旨在识别所有实施方式的关键元素或重要元素,也不旨在描绘任何实施方式或所有实施方式的范围。该概述的唯一目的是以简化形式呈现本公开内容的一个或更多个实施方式的一些构思,作为稍后呈现的更详细描述的序言。

2、用于多视图查询产生的方法、装置和非暂态计算机可读介质。

3、根据示例性实施方式,一种训练用于查询生成的模型的方法包括接收与对话历史对应的训练实例查询,其中,该方法由至少一个处理器执行。该方法还包括基于训练实例查询与对话历史之间的共同词的数目生成该模型的第一静态视图。该方法还包括基于未被对话历史覆盖的一个或更多个词元生成该模型的第二静态视图,所述一个或更多个词元与一个或更多个查询词对应。该方法还包括基于将从模型生成的候选查询与目标查询进行比较的评分操作生成该模型的动态视图。该方法还包括至少基于第一静态视图、第二静态视图和动态视图训练模型。

4、根据示例性实施方式,一种用于训练用于查询生成的模型的设备包括:至少一个存储器,所述至少一个存储器被配置成存储计算机程序代码;以及至少一个处理器,所述至少一个处理器被配置成访问所述至少一个存储器并且按照所述计算机程序代码所指示的进行操作。计算机程序代码包括:接收代码,该接收代码被配置成使所述至少一个处理器中的至少一个处理器接收与对话历史对应的训练实例查询。计算机程序代码还包括第一生成代码,该第一生成代码被配置成使所述至少一个处理器中的至少一个处理器基于训练实例查询与对话历史之间的共同词的数目生成该模型的第一静态视图。计算机程序代码还包括第二生成代码,该第二生成代码被配置成使所述至少一个处理器中的至少一个处理器基于未被对话历史覆盖的一个或更多个词元生成该模型的第二静态视图,所述一个或更多个词元与一个或更多个查询词对应。计算机程序代码还包括第三生成代码,该第三生成代码被配置成使所述至少一个处理器中的至少一个处理器基于将从模型生成的候选查询与目标查询进行比较的评分操作生成该模型的动态视图。计算机程序代码还包括训练代码,该训练代码被配置成使所述至少一个处理器中的至少一个处理器至少基于第一静态视图、第二静态视图和动态视图训练模型。

5、根据示例性实施方式,一种非暂态计算机可读介质具有存储在其中的指令,所述指令在由处理器执行时,使该处理器执行训练用于查询生成的模型的方法。该方法包括接收与对话历史对应的训练实例查询。该方法还包括基于训练实例查询与对话历史之间的共同词的数目生成该模型的第一静态视图。该方法还包括基于未被对话历史覆盖的一个或更多个词元生成该模型的第二静态视图,所述一个或更多个词元与一个或更多个查询词对应。该方法还包括基于将从模型生成的候选查询与目标查询进行比较的评分操作生成该模型的动态视图。该方法还包括至少基于第一静态视图、第二静态视图和动态视图训练模型。

6、附加的实施方式将在随后的描述中阐述,并且部分地根据描述将是明显的,以及/或者可以通过本公开内容的所呈现的实施方式的实践来获知。

技术特征:

1.一种训练用于查询生成的模型的方法,所述方法由至少一个处理器执行并且包括:

2.根据权利要求1所述的方法,其中,生成所述第一静态视图包括:

3.根据权利要求2所述的方法,其中,所述缩放值是基于下述确定的0-1缩放值:(i)提供所述训练实例查询与所述对话历史之间的相似性的测量的忠实度;以及(ii)指示所述忠实度的使得不对所述缩放值施加惩罚的最小值的参数。

4.根据权利要求1所述的方法,其中,生成所述第一静态视图包括确定用于预测所述第一静态视图的损失运算,其中,所述模型基于用于预测所述第一静态视图的损失运算来训练。

5.根据权利要求1所述的方法,其中,生成所述第二静态视图包括通过将未被所述对话历史覆盖的词元转换为预定义的掩码词元来生成模板,其中,所述模板与所述训练实例查询进行连结以生成连结序列。

6.根据权利要求5所述的方法,其中,生成所述第二静态视图还包括基于生成的所述模板确定用于预测所述第二静态视图的损失运算,其中,所述模型基于用于预测所述第二静态视图的损失运算来训练。

7.根据权利要求1所述的方法,其中,所述评分操作是unigram f1操作。

8.根据权利要求1所述的方法,其中,生成所述动态视图还包括至少基于所述评分操作和所述候选查询确定用于预测所述动态视图的损失运算。

9.一种用于训练用于查询生成的模型的设备,所述设备包括:

10.根据权利要求9所述的设备,其中,第一生成代码还包括:

11.根据权利要求10所述的设备,其中,所述缩放值是基于下述确定的0-1缩放值:(i)提供所述训练实例查询与所述对话历史之间的相似性的测量的忠实度;以及(ii)指示所述忠实度的使得不对所述缩放值施加惩罚的最小值的参数。

12.根据权利要求9所述的设备,其中,所述第一生成代码还包括确定代码,所述确定代码被配置成使所述至少一个处理器中的至少一个处理器确定用于预测所述第一静态视图的损失运算,其中,所述模型基于用于预测所述第一静态视图的损失运算来训练。

13.根据权利要求9所述的设备,其中,所述第二生成代码还包括模板生成代码,所述模板生成代码被配置成使所述至少一个处理器中的至少一个处理器通过将未被所述对话历史覆盖的所述词元转换为预定义的掩码词元来生成模板,其中,所述模板与所述训练实例查询进行连结以生成连结序列。

14.根据权利要求13所述的设备,其中,所述第二生成代码还包括确定代码,所述确定代码被配置成使所述至少一个处理器中的至少一个处理器基于生成的所述模板确定用于预测所述第二静态视图的损失运算,其中,所述模型基于用于预测所述第二静态视图的损失运算来训练。

15.根据权利要求9所述的设备,其中,所述评分操作是unigram f1操作。

16.根据权利要求9所述的设备,其中,所述第三生成代码还包括确定代码,所述确定代码被配置成使所述至少一个处理器中的至少一个处理器至少基于所述评分操作和所述候选查询确定用于预测所述动态视图的损失运算。

17.一种非暂态计算机可读介质,其具有存储在其中的指令,所述指令在由处理器执行时使所述处理器执行训练用于查询生成的模型的方法,所述方法包括:

18.根据权利要求17所述的非暂态计算机可读介质,其中,生成所述第一静态视图包括:

19.根据权利要求18所述的非暂态计算机可读介质,其中,所述缩放值是基于下述确定的0-1缩放值:(i)提供所述训练实例查询与所述对话历史之间的相似性的测量的忠实度;以及(ii)指示所述忠实度的使得不对所述缩放值施加惩罚的最小值的参数。

20.根据权利要求17所述的非暂态计算机可读介质,其中,生成所述第一静态视图包括确定用于预测所述第一静态视图的损失运算,其中,所述模型基于用于预测所述第一静态视图的损失运算来训练。

技术总结一种训练用于查询生成的模型的方法,该方法由至少一个处理器执行并且包括接收与对话历史对应的训练实例查询。该方法还包括基于训练实例查询与对话历史之间的共同词的数目生成该模型的第一静态视图。该方法还包括基于未被对话历史覆盖的一个或更多个词元生成该模型的第二静态视图,所述一个或更多个词元与一个或更多个查询词对应。该方法还包括基于将从该模型生成的候选查询与目标查询进行比较的评分操作生成该模型的动态视图。该方法还包括至少基于第一静态视图、第二静态视图和动态视图训练模型。技术研发人员:宋林峰受保护的技术使用者:腾讯美国有限责任公司技术研发日:技术公布日:2024/11/21

本文地址:https://www.jishuxx.com/zhuanli/20241125/337455.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。