技术新讯 > 乐器声学设备的制造及制作,分析技术 > 为助理系统呈现与语音命令相关联的注意状态的制作方法 > 正文

为助理系统呈现与语音命令相关联的注意状态的制作方法

国知局
2024-06-21 11:39:35

本公开总体上涉及网络环境内的数据库和文件管理，并且尤其涉及用于智能助理系统的硬件和软件。

背景技术：

1、助理系统可以基于以下项的组合来代表用户提供信息或服务：用户输入、位置感知和从各种在线源访问信息(例如，天气状况、交通堵塞、新闻、股票价格、用户日程、零售价格等)的能力。用户输入可以包括(尤其是在即时消息收发应用或其他应用中的)文本(例如，在线聊天)、语音、图像、动作或它们的组合。助理系统可以基于用户输入来执行礼宾型(concierge-type)服务(例如，预订晚餐、购买活动门票、做出旅行安排)或提供信息。助理系统还可以基于在线信息和活动执行管理或数据处理任务，而无需用户发起或交互。可由助理系统执行的那些任务的示例可以包括日程管理(例如，发送对用户由于交通状况而推迟晚餐日期的提示、更新双方的日程、以及改变餐厅预订时间)。该助理系统可以通过以下的组合来实现：计算设备、应用编程接口(application programming interface，api)和用户设备上的大量应用。

2、可包括社交网络网站的社交网络系统可以使其用户(例如，个人或组织)能够与该社交网络系统交互、并通过该社交网络系统彼此交互。社交网络系统可以使用来自用户的输入，在社交网络系统中创建和存储与用户相关联的用户资料。用户资料可以包括个人背景信息、通信信道信息和关于用户个人兴趣的信息。社交网络系统还可以利用来自用户的输入，来创建和存储该用户与社交网络系统中的其他用户的关系的记录，并提供促进用户之间或之中的社交互动的服务(例如，资料/新闻推送帖子、照片共享、活动组织、消息收发、游戏或广告)。

3、社交网络系统可以通过一个或多个网络将与其服务相关的内容或消息发送到用户的移动设备或其他计算设备。用户还可以在该用户的移动设备或其他计算设备上安装软件应用，以用于访问用户的用户资料和社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象(例如，与该用户有联系的其他用户的综合报道的新闻推送)以显示给用户。

技术实现思路

1、在特定实施例中，助理系统可以帮助用户获得信息或服务。助理系统可以使用户能够在有状态和多轮对话中通过各种模态(例如，音频、语音、文本、图像、视频、手势、运动、位置、朝向)的用户输入与该助理系统交互，以得到来自该助理系统的帮助。作为示例而非限制，助理系统可以支持单模态输入(例如，仅语音输入)、多模态输入(例如，语音输入和文本输入)、混合/多模态输入、或它们的任何组合。由用户提供的用户输入可以与特定的助理相关任务相关联，并且可以包括例如用户请求(例如，对信息或动作的执行的口头请求)、和与助理系统相关联的助理应用的用户交互(例如，通过触摸或手势来选择用户界面(userinterface，ui)元素)、或者可以由助理系统检测和理解的任何其他类型的合适的用户输入(例如，由用户的客户端设备检测到的用户移动)。助理系统可以创建并存储这样的用户资料：该用户资料包括与用户相关联的个人信息和上下文信息。在特定实施例中，助理系统可以使用自然语言理解(natural-language understanding，nlu)来分析用户输入。对于更个性化的和上下文感知的理解，该分析可以基于用户的用户资料。助理系统可以基于该分析来解析与用户输入相关联的实体。在特定实施例中，助理系统可以与不同的代理交互以获得与所解析的实体相关联的信息或服务。助理系统可以通过使用自然语言生成(natural-language generation，nlg)，为用户生成关于这些信息或服务的响应。通过与用户的交互，助理系统可以使用对话管理技术来管理和推进与用户的对话流。在特定实施例中，助理系统还可以通过概括信息来帮助用户有效和高效地理解所获得的信息。助理系统还可以通过提供帮助用户与在线社交网络交互(例如，创建帖子、评论、消息)的工具，来帮助用户更多地参与在线社交网络。助理系统还可以帮助用户管理不同的任务，例如保持对事件的追踪。在特定实施例中，助理系统可以在没有用户输入的情况下，在与用户相关的时间基于用户资料主动执行与用户兴趣和偏好相关的任务。在特定实施例中，助理系统可以检查隐私设置，以确保根据用户的隐私设置而允许访问用户的资料或其他用户信息、并执行不同任务。

2、在特定实施例中，助理系统可以通过被构建在客户端侧过程和服务器侧过程两者上的混合架构来帮助用户。客户端侧过程和服务器侧过程可以是用于处理用户输入和向用户提供帮助的两个并行工作流。在特定实施例中，客户端侧过程可以在与用户相关联的客户端系统上本地执行。相比之下，服务器侧过程可以在一个或多个计算系统上远程执行。在特定实施例中，客户端系统上的仲裁器可以协调接收用户输入(例如，音频信号)，确定是使用客户端侧过程、服务器侧过程还是这两者来响应该用户输入，并分析来自每个过程的处理结果。仲裁器可以基于前述分析指示客户端侧或服务器侧的代理执行与该用户输入相关联的任务。执行结果可以进一步被渲染以作为客户端系统的输出。通过利用客户端侧过程和服务器侧过程，助理系统可以有效地帮助用户优化使用计算资源，同时保护用户隐私并增强安全性。

3、在特定实施例中，助理系统可以仅通过与所渲染的扩展现实(extended-reality，xr)助理化身或其他xr对象有关的语音命令，在xr上下文(例如，ar/vr上下文)中向用户呈现不同的注意状态或注意子状态。助理系统可以使用用于xr助理化身的注意系统来传达注意状态，使得以不同的方式渲染xr助理化身以指示不同的注意状态(例如，收听、处理等)。对于多个注意状态中的每个注意状态，该注意状态可以进一步具有各种子状态，注意系统可以帮助以特定方式渲染这些子状态来区分xr助理化身正在做什么。与传达系统级注意状态(例如，指示麦克风是开启还是关闭)的传统注意系统不同，本文所公开的实施例中的注意系统可以传达指示xr助理化身或特定xr对象的注意状态/子状态的对象级注意状态/子状态。尽管本公开描述了通过特定的系统以特定的方式渲染特定的状态，但是本公开考虑了由任何合适的系统以任何合适的方式渲染任何合适的状态。

4、在特定实施例中，客户端系统可以为扩展现实(xr)显示设备的一个或多个显示器，在第一用户的视场角(field of view，fov)中的环境内渲染xr助理化身的第一输出图像。xr助理化身可以由第一用户交互以访问助理系统。xr助理化身可以具有指示第一注意状态的第一形式。在特定实施例中，第一注意状态可以指示xr助理化身是否通过一个或多个第一语音命令来交互，该一个或多个第一语音命令用于由助理系统启用的一个或多个第一功能。然后，客户端系统可以通过客户端系统检测来自第一用户的一个或多个语音输入。在特定实施例中，客户端系统可以基于一个或多个语音输入来确定与xr助理化身相关联的第二注意状态。客户端系统还可以为xr显示设备的一个或多个显示器渲染xr助理化身的第二输出图像。在特定实施例中，xr助理化身可以被变形为具有指示第二注意状态的第二形式。第二注意状态可以指示xr助理化身是否可以通过一个或多个第二语音命令来交互，该一个或多个第二语音命令用于由助理系统启用的一个或多个第二功能。

5、对于呈现与语音命令相关联的不同注意状态，存在某些技术挑战。一个技术挑战可能包括准确地确定注意状态/子状态并将其呈现给用户。本文所公开的实施例提出的用于解决该挑战的解决方案可以是基于来自用户的信号(例如，语音输入和用户动作)来确定注意状态/子状态，因为这些信号可以反映用户的意图、以及和与助理系统的用户交互相关联的对话/任务状态。

6、本文公开的某些实施例可以提供一个或多个技术优势。这些实施例的一个技术优势可以包括与用户就如下内容进行清晰的沟通：助理系统的处理与xr助理化身或特定xr对象有关的语音命令的状态；因为助理系统可以呈现指示xr助理化身或xr对象的注意状态/子状态的对象级的注意状态/子状态。这些实施例的另一个技术优势可以包括基于注意状态提供合适的语音命令建议，因为助理系统可以根据注意状态的改变而自适应地改变建议。本文所公开的某些实施例可以不提供上述技术优势、提供上述技术优势中的一些或全部。考虑到本公开的附图、说明书和权利要求书，一个或多个其他技术优势对于本领域技术人员来说是显而易见的。

7、本文所公开的各个实施例仅是示例，并且本公开的范围不限于这些实施例。特定实施例可以包括本文所公开的实施例中的部件、元素、特征、功能、操作或步骤中的全部、一些，或者可以不包括本文所公开的实施例中的部件、元素、特征、功能、操作或步骤。具体地，在所附权利要求中公开了根据本发明的实施例，所附权利要求针对方法、存储介质、系统和计算机程序产品，其中，在一个权利要求类别(例如，方法)中提及的任何特征也可以在另一个权利要求类别(例如，系统)中被主张。所附权利要求书中的从属关系或回引仅出于形式原因而选择。然而，由于有意引用任何先前的权利要求(特别是多项从属关系)而产生的任何主题也可以被主张，使得多个权利要求及其多个特征的任何组合无论在所附权利要求书中所选择的从属关系如何、都被公开且可以被主张。可主张的主题不仅包括所附权利要求书中所陈述的多个特征的多种组合，还包括权利要求书中的多个特征的任何其他组合，其中，在权利要求书中所提到的每个特征可以与权利要求书中的任何其他特征或其他特征的组合进行组合。此外，本文所描述或所描绘的实施例和特征中的任何可以在单独的权利要求中被主张，和/或在与本文所描述或所描绘的任何实施例或特征的任何组合中或在与所附权利要求书中的任何特征的任何组合中被主张。