基础的多模态代理交互的制作方法

国知局
2024-07-11 16:35:41

背景技术：

1、用户可以提供自然语言输入以供会话代理处理。类似地，会话代理可以生成响应于用户而提供的自然语言输出，从而使得用户和会话代理能够进行通信。然而，用户和会话代理之间的交互可能因此被限制为自然语言，这可能导致会话代理对用户的实用性降低和/或这种交互的丰富性受到限制。

2、正是针对这些和其他一般考虑描述了实施例。此外，虽然已经讨论了相对具体的问题，但应该理解的是，实施例不应限于解决背景技术中确定的具体问题。

技术实现思路

1、本公开的各方面涉及基础的多模态代理交互，其中用户输入使用多模态机器学习模型被处理以生成模型输出。模型输出然后可以被处理以影响应用的行为，例如使得用户能够控制应用和/或支持与会话代理的用户交互，或者其他示例。在一些情况下，模型输出的至少部分可以被执行或解析，例如以调用应用的应用程序程序接口或函数。因此，根据本文描述的方面的多模态机器学习模型的使用可以使得能够使用用户提供的自然语言输入相应地影响应用的行为。

2、提供本技术实现要素：是为了以简化的形式介绍一些概念，下面以具体实施方式进一步描述这些概念。本发明内容无意于标识所要求保护的主题的关键特征或基本特征，也无意于用于限制所要求保护的主题的范围。

技术特征：

1.一种系统，包括：

2.根据权利要求1所述的系统，其中确定所述模型输出包括：

3.根据权利要求2所述的系统，其中：

4.根据权利要求1所述的系统，其中所述模型输出的所述部分是程序内容，所述程序内容包括一组程序步骤，所述一组程序步骤被执行以控制所述视频游戏应用的所述功能。

5.一种用于控制视频游戏应用的会话代理的方法，所述方法包括：

6.根据权利要求5所述的方法，其中所述模型输出响应于与所述会话代理相关联的触发被确定。

7.根据权利要求5所述的方法，其中所述提示用于启动所述多模态机器学习模型并且确定与所述会话代理相关联的所述提示包括：

8.一种用于使用多模态机器学习模型的模型输出以控制视频游戏应用的方法，所述方法包括：

9.根据权利要求8所述的方法，还包括：

10.根据权利要求8所述的方法，还包括：

11.根据权利要求1所述的系统，其中所述多模态机器学习模型与一组内容类型相关联，所述一组内容类型包括自然语言内容和程序内容。

12.根据权利要求5所述的方法，还包括：

13.根据权利要求12所述的方法，还包括：

14.根据权利要求9所述的方法，其中：

15.根据权利要求8所述的方法，其中所述视频游戏的所述功能通过执行所述模型输出的所述部分被控制，所述模型输出的所述部分与所述视频游戏应用的所述功能相关联，所述视频游戏应用的所述功能使用视频游戏控制器输入可访问。

技术总结本公开的各方面涉及基础的多模态代理交互，其中用户输入使用多模态机器学习模型被处理以生成模型输出。模型输出然后可以被处理以影响应用的行为，例如使得用户能够控制应用和/或支持与会话代理的用户交互，或者其他示例。在一些情况下，模型输出的至少部分可以被执行或解析，例如以调用应用的应用程序程序接口或函数。因此，根据本文描述的方面的多模态机器学习模型的使用可以使得能够使用用户提供的自然语言输入相应地影响应用的行为。技术研发人员：W·B·多兰,R·沃鲁姆,C·J·布罗克特,G·A·德斯加伦内斯,S·拉奥受保护的技术使用者：微软技术许可有限责任公司技术研发日：技术公布日：2024/5/29