对基于增强学习的对话管理的专家混合方法与流程
- 国知局
- 2024-12-26 15:13:32
本公开整体涉及用从多个专家模型输出中选择候选响应的对话管理模型来生成对话响应。更具体地,本公开涉及获取会话历史,用语言编码模型、多个专家语言模型和对话管理模型来处理该会话历史以生成对话响应。
背景技术:
1、语言模型的进步包括生成具有数十亿个学习参数的大语言模型。尽管具有学习参数的大型语料库,但语言模型不能在考虑会话历史语义的情况下正确地生成响应。语言模型在对话管理方面可能遇到困难,并且在进行内容丰富、参与性强的会话的能力方面也可能遇到困难。另外,大语言模型的处理和再训练在计算上可能是昂贵的。
技术实现思路
1、本公开的实施例的各方面和优点将部分地在以下描述中阐述,或者可从描述中学习,或者可通过实施例的实践来学习。
2、本公开的一个示例方面涉及一种计算系统。该系统可包括一个或多个处理器以及共同存储指令的一个或多个非暂时性计算机可读介质,这些指令在由该一个或多个处理器执行时使计算系统执行操作。这些操作可包括获取输入数据。输入数据可包括描述会话的会话数据。这些操作可包括用编码器模型来处理输入数据以生成语言表示。在一些实现方式中,语言表示可包括与会话相关联的潜在嵌入。编码器模型可能已经被训练成将经编码会话映射到潜在分布。这些操作可包括用一个或多个机器学习语言模型来处理语言表示以生成一个或多个候选输出。该一个或多个候选输出可包括一个或多个候选话语。这些操作可包括用对话管理模型来处理该一个或多个候选输出和语言表示以生成对话规划数据。这些操作可包括基于对话规划数据生成预测的对话响应。在一些实现方式中,预测的对话响应可包括与该一个或多个候选话语相关联的一个或多个预测词语。
3、在一些实现方式中,用该一个或多个机器学习语言模型来处理语言表示以生成该一个或多个候选输出可包括用多个专家语言模型来处理语言表示以生成多个候选输出。该多个候选输出可与多个候选话语相关联。预测的对话响应可包括与该多个候选输出中的所选候选输出相关联的所选候选话语。所选候选输出可由对话管理模型选择。在一些实现方式中,该一个或多个机器学习语言模型可包括关于特定技能训练的专家语言模型,使得该一个或多个候选话语指示该特定技能。对话管理模型可能已用增强学习进行训练。增强学习可优化针对完整会话的预测。预测的对话响应可包括预测的话语。预测的话语可响应于输入数据。
4、在一些实现方式中,语言表示可描述会话的会话历史的语义。会话历史可包括多个交换的文本串。语言表示可与所学习潜在空间的潜在空间分布相关联。在一些实现方式中,语言表示可与潜在空间的所学习分布相关联。所学习分布可与特定情绪相关联。在一些实现方式中,对话管理模型可被配置为:基于语言表示来确定会话意图以及基于特定候选输出与会话意图相关联来选择该特定候选输出。
5、本公开的另一个示例方面涉及一种计算机实现的方法。该方法可包括由包括一个或多个处理器的计算系统获取会话数据。会话数据可描述会话历史。该方法可包括由计算系统用语言编码模型来处理会话数据以生成语言表示。语言表示可描述与会话历史相关联的语义。该方法可包括由计算系统用多个机器学习语言模型来处理语言表示以生成多个候选输出。该多个机器学习语言模型可能已基于与潜在空间相关联的所学习情绪分布进行训练。该方法可包括由计算系统用对话管理模型来处理语言表示和该多个候选输出以确定对话响应。
6、在一些实现方式中,该多个机器学习语言模型中的第一机器学习语言模型可能已针对第一技能进行训练。该多个机器学习语言模型中的第二机器学习语言模型可能已针对第二技能进行训练。对话管理模型可能已被训练成至少部分地基于语言表示来选择该多个候选输出中的特定候选输出。该多个机器学习语言模型可能已用基准真实训练数据进行训练。在一些实现方式中,语言编码模型可包括随机编码器模型。随机编码器模型可包括编码器和潜在空间分布。随机编码器模型可将词元化会话历史映射到潜在空间以生成参数化高斯分布。在一些实现方式中,该多个机器学习语言模型可包括与多种情感相关联的多个专家模型。该多个机器学习语言模型可包括与多个任务相关联的多个专家模型。
7、本公开的另一个示例方面涉及一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同存储指令,这些指令在由一个或多个计算装置执行时使该一个或多个计算装置执行操作。这些操作可包括获取训练数据。训练数据可包括训练会话数据。这些操作可包括用语言编码模型来处理训练会话数据以生成语言表示。这些操作可包括用多个机器学习语言模型来处理语言表示以生成多个候选话语。这些操作可包括用对话管理模型来处理该多个候选话语以确定预测的对话响应。这些操作可包括向用户计算系统提供预测的对话响应以及从用户计算系统接收另外的会话数据。该另外的会话数据可描述在预测的对话响应之后发生的会话。这些操作可包括基于另外的会话数据来调整对话管理模型的一个或多个参数。
8、在一些实现方式中,这些操作还可包括至少部分地基于另外的会话数据来确定满意度数据。满意度数据可描述对预测的对话响应的满意度水平。可至少部分地基于会话参与度来确定满意度数据。这些操作可包括基于满意度数据来调整对话管理模型的一个或多个参数。在一些实现方式中,训练数据可包括一个或多个基准真实话语。这些操作还可包括评估损失函数,该损失函数评估该多个候选话语中的特定候选话语与该一个或多个基准真实话语之间的差异,以及至少部分地基于损失函数来调整该多个机器学习语言模型中的至少一者的一个或多个参数。语言编码模型可包括变分自编码器模型。在一些实现方式中,该多个机器学习语言模型可包括多个语言解码器模型。语言表示可包括嵌入序列。
9、本公开的另一个示例方面涉及一种计算系统。该系统可包括一个或多个处理器以及共同存储指令的一个或多个非暂时性计算机可读介质,这些指令在由该一个或多个处理器执行时使计算系统执行操作。这些操作可包括获取序列数据。序列数据可描述序列。这些操作可包括用编码模型来处理序列数据以生成编码表示。编码表示可描述序列的所确定语义。这些操作可包括用多个机器学习专家模型来处理编码表示以生成多个候选输出。该多个机器学习专家模型可与多个不同意图相关联。这些操作可包括用管理模型来处理该多个候选输出和编码表示以生成规划数据以及基于规划数据生成预测的输出。预测的输出可包括该多个候选输出中的一个或多个候选输出的至少一部分。
10、本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户接口和电子装置。
11、将参考以下描述和随附权利要求更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并且构成本说明书的一部分的附图示出了本公开的示例实施例,并且连同描述一起用于解释相关原理。
技术特征:1.一种计算系统,所述系统包括:
2.如任一前述权利要求所述的系统,其中用所述一个或多个机器学习语言模型来处理所述语言表示以生成所述一个或多个候选输出包括:
3.如任一前述权利要求所述的系统,其中所述一个或多个机器学习语言模型包括关于特定技能训练的专家语言模型,使得所述一个或多个候选话语指示所述特定技能。
4.如任一前述权利要求所述的系统,其中所述对话管理模型用增强学习训练,其中所述增强学习优化针对完整会话的预测;并且
5.如任一前述权利要求所述的系统,其中所述语言表示描述所述会话的会话历史的语义,其中所述会话历史包括多个交换的文本串。
6.如任一前述权利要求所述的系统,其中所述语言表示与所学习潜在空间的潜在空间分布相关联。
7.如任一前述权利要求所述的系统,其中所述语言表示与潜在空间的所学习分布相关联,其中所述所学习分布与特定情绪相关联。
8.如任一前述权利要求所述的系统,其中所述对话管理模型被配置为:
9.一种计算机实现的方法,所述方法包括:
10.如权利要求9所述的方法,其中所述多个机器学习语言模型中的第一机器学习语言模型已针对第一技能进行训练,并且其中,所述多个机器学习语言模型中的第二机器学习语言模型已针对第二技能进行训练。
11.如任一前述权利要求所述的方法,其中所述对话管理模型被训练成至少部分地基于所述语言表示来选择所述多个候选输出中的特定候选输出,并且其中所述多个机器学习语言模型用基准真实训练数据进行训练。
12.如任一前述权利要求所述的方法,其中所述语言编码模型包括随机编码器模型,其中所述随机编码器模型包括编码器和潜在空间分布,并且其中所述随机编码器模型将词元化会话历史映射到潜在空间以生成参数化高斯分布。
13.如任一前述权利要求所述的方法,其中所述多个机器学习语言模型包括与多种情感相关联的多个专家模型。
14.如任一前述权利要求所述的方法,其中所述多个机器学习语言模型包括与多个任务相关联的多个专家模型。
15.一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个计算装置执行时使所述一个或多个计算装置执行操作,所述操作包括:
16.如权利要求15所述的一个或多个非暂时性计算机可读介质,其中所述操作进一步包括:
17.如任一前述权利要求所述的一个或多个非暂时性计算机可读介质,其中所述训练数据包括一个或多个基准真实话语,并且其中所述操作进一步包括:
18.如任一前述权利要求所述的一个或多个非暂时性计算机可读介质,其中所述语言编码模型包括变分自编码器模型。
19.如任一前述权利要求所述的一个或多个非暂时性计算机可读介质,其中所述多个机器学习语言模型包括多个语言解码器模型。
20.如任一前述权利要求所述的一个或多个非暂时性计算机可读介质,其中所述语言表示包括嵌入序列。
21.一种计算系统,所述系统包括:
技术总结用于对话响应预测的系统和方法可利用多个机器学习语言模型来生成多个候选输出,这些候选输出可由对话管理模型来处理以确定预测的对话响应。该多个机器学习语言模型可包括针对不同意图、情感和/或任务训练的多个专家。所选特定候选输出可由该对话管理模型基于根据语言表示确定的语义来选择。该语言表示可以是通过处理会话的会话历史以确定会话语义而生成的表示。技术研发人员:Y·乔,A·图列贝格诺夫,O·纳楚姆受保护的技术使用者:谷歌有限责任公司技术研发日:技术公布日:2024/12/23本文地址:https://www.jishuxx.com/zhuanli/20241226/344969.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表