技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于对在线语音命令的使用来学习离线语音命令的制作方法 > 正文

基于对在线语音命令的使用来学习离线语音命令的制作方法

国知局
2024-06-21 11:46:18

本公开涉及基于对在线语音命令的使用来学习离线语音命令。

背景技术：

1、人们依靠他们的用户设备来执行各种不同的任务。用户设备可以包括例如智能手机、智能手表、平板电脑、智能扬声器、头戴式受话器、汽车、电视、恒温器等。这样的设备可以包括被配置为启用数字助理功能的硬件和软件。这样的应用程序通常称为“数字助理”。

2、数字助理功能可以包括使用语音识别器来检测用户说出的话语，以及使用语音识别器的语法来识别基于所检测到的话语应当执行的操作。这样的助理功能通常可以被分为在线和离线功能。在线功能可以包括诸如“今天巴黎的天气如何？(what is the weatherlike in paris today？)”、“为我订购大的比萨(order a large pizza for me)”的命令。这样的命令需要有效的网络连接，以及来自经由该网络访问的一个或多个服务器的信息。

3、在许多系统中，离线功能限于不需要网络连接的命令子集。例如，离线数字助理功能可以限于诸如“播放101.5fm(play 101.5fm)”、“增加音量(increase volume)”、“打开空调(turn on air conditioner)”等的命令子集。

技术实现思路

1、技术解决方案

2、本公开针对一种用于更新语音识别器的语法的系统和方法，该语音识别器被存储在用户设备上并且用于执行离线语音命令。通常，本说明书中描述的主题的一个创新方面可以体现在方法中，该方法包括下述动作：在当用户设备通过网络连接到服务器时的第一时间，由所述用户设备检测话语，其中，所述话语包括一个或多个词项；由所述用户设备使用所述网络向所述服务器提供所述话语；由所述用户设备以及从所述服务器接收基于所述一个或多个词项对所述用户设备的语法的更新；在当所述用户设备未通过网络连接到所述服务器时的第二时间，由所述用户设备检测后续话语，其中，所述后续话语包括所述一个或多个词项；以及响应于由所述用户设备在所述第二时间检测所述后续话语：由所述用户设备确定所述后续话语与可以在不从所述服务器请求信息的情况下执行的操作相关联；基于(i)所述后续话语的一个或多个词项，以及(ii)所更新的语法，由所述用户设备识别执行的操作；以及在不从所述服务器请求信息的情况下由所述用户设备发起所述操作的执行。该方面的其他实施例包括编码在计算机存储设备上、被配置为执行方法的动作的相应系统、装置和计算机程序。

3、这些和其他版本可以可选地包括下述特征中的一个或多个。例如，在一些实施方式中，在不从所述服务器请求信息的情况下由所述用户设备发起所述操作的执行可以包括：由所述用户设备生成包括数据对象的动作，所述数据对象在被执行时使所述用户设备发起响应于所述后续话语的操作的执行；以及由所述用户设备执行所述动作，以在不从所述服务器请求信息的情况下触发所述操作的执行。

4、在一些实施方式中，该方法还可以包括由用户设备接收动作的动作。该动作可以包括数据对象，该数据对象在被执行时使所述用户设备发起响应于所述后续话语的操作的执行，其中，所述动作由所述服务器生成；以及由所述用户设备将动作存储在所述用户设备上。

5、在一些实施方式中，在不从所述服务器请求信息的情况下，由所述用户设备发起所述操作的执行可以包括：由所述用户设备访问存储在所述用户设备上的动作；以及由所述用户设备执行所述动作，以在不从所述服务器请求信息的情况下触发所述操作的执行。

6、在一些实施方式中，由所述用户设备以及从所述服务器接收基于所述一个或多个词项对所述用户设备的语法的更新可以包括：由所述用户设备接收所述一个或多个词项；以及更新所述用户设备的语法以包括所述一个或多个词项。

7、在一些实施方式中，所述一个或多个词项与阈值时间量相关联，该阈值时间量指示在所述用户设备没有检测到通过用户的所述一个或多个词项的后续话语时，所述一个或多个词项将被包括在语法中的最大时间段。

8、在一些实施方式中，该方法还可以包括：由所述用户设备确定已经超过所述阈值时间段而所述用户设备未检测到通过所述用户的所述一个或多个词项的后续话语；以及由所述用户设备从所述用户设备的语法中移除所述一个或多个词项。

9、本说明书中描述的主题的另一个创新方面可以体现在方法中，该方法包括当所述服务器和第一用户设备通过网络连接时，由服务器处理由所述第一用户设备检测到的话语的转录；基于所述话语的转录的处理，由所述服务器确定在不从所述服务器请求信息的情况下能够由所述第一用户设备执行的操作，其中，所述转录包括一个或多个词项；以及由所述服务器基于所述一个或多个词项来提供对所述第一用户设备的语法的更新。该方面的其他实施例包括编码在计算机存储设备上、被配置为执行方法的动作的相应系统、装置和计算机程序。

10、这些和其他版本可以可选地包括下述特征中的一个或多个。例如，在一些实施方式中，由所述服务器可以基于所述一个或多个词项来提供对所述第一用户设备的语法的更新包括：向所述第一用户设备提供所述一个或多个词项。

11、在一些实施方式中，该方法还可以包括将所述一个或多个词项与预定时间段相关联的动作，其中，所述预定时间段指示在没有通过用户以执行所述动作的所述一个或多个词项的后续话语的情况下所述一个或多个词项将被包括在所述语法中的最大时间段。

12、在一些实施方式中，由所述服务器基于所述话语的转录确定在不从所述服务器请求信息的情况下能够由所述第一用户设备执行的操作可以包括由所述服务器生成数据对象，所述数据对象在被执行时使所述第一用户设备发起响应于所接收的话语的操作的执行。

13、在一些实施方式中，由所述服务器基于所述一个或多个词项提供对所述第一用户设备的语法的更新可以包括：将所生成的数据对象提供给所述第一用户设备。

14、在一些实施方式中，对所述语法的更新使得所述第一用户设备能够在不从所述服务器请求信息的情况下执行数据对象，所述数据对象发起响应于后续接收的话语的所述操作的执行。

15、在一些实施方式中，该方法还可以包括下述动作：由所述服务器识别与所述第一用户设备相关联的用户简档；由所述服务器基于所述用户简档，识别向所述第一用户设备的用户注册的第二用户设备；以及由所述服务器基于一个或多个词项，提供对所述第二用户设备的语法的更新。

16、本发明的作用

17、可以实现本说明书中描述的主题的特定实施例，以便实现下述优点中的一个或多个。使用本公开的系统和方法更新语音识别器的语法使得语音识别器能够学习可以被用来执行离线语音命令的个性化命令。在不存在或不需要利用网络连接的情况下，这可以提高设备提供有效的数字助理功能的能力。例如，当设备不在网络覆盖范围内或临时网络中断时，可能会发生没有网络连接。因此，本文描述的主题可以提供一种能够在这种情况下更好地起作用的设备。这对于移动设备尤其有用，诸如但不限于安装在汽车中或以其他方式在汽车内运行的那些设备，这些设备可能会定期进入充分的网络覆盖范围之内或之外。另外，即使当网络覆盖范围可用时，本文描述的主题也可以使得能够在不访问网络的情况下有效地提供数字助理功能。这可以导致节省电池、减少带宽和减少cpu资源的使用中的一个或多个。

18、本公开提供了另一个优点在于：作为自动化过程采用本公开的系统和方法的结果，实现了个性化命令的学习。即，用户不需要发起个性化过程。相反，可以基于部分地基于用户命令和系统响应的系统的正常运行来实现语音识别器语法的个性化。

19、如上所述，本公开改进了计算机的功能性。对存储在用户设备上的语音识别器的语法的更新使得可以由语音识别器检测到并且使用用户设备所采用的一个或多个控制系统执行的命令的数量增加。因此，这需要与可经由网络访问的服务器进行更少的协商来消除以前未知的语音命令的歧义、提示用户提供用于帮助消除未知语音命令的歧义的反馈，然后从服务器接收可以由用户设备上的一个或多个控制系统处理以执行特定动作(例如，打开空调、关闭空调、将收音机调谐到特定的电台、增加音量、关灯等)的数据对象。与联网服务器的协商越少导致使用更少的网络带宽并且减少从最初发出命令的时间起执行该命令所涉及的等待时间。

20、通过本公开可以实现其他优点。例如，利用本公开的用户设备可以使用更少的存储空间来存储附加的离线语言包。在一些实施方式中，这可以将语言包的下载和存储量减少到40mb的语言包下载。举另一个例子，服务器本身可以进行更少的处理以创建这些大的语言包，当将更多的语言添加到语音识别器的语法中时，这可以产生累积效应。

21、其他优点可以包括使用户能够使用用户自己的个性化语言来命令数字助理。这样可以减少数字助理无法理解用户命令的情况，还可以减少用户必须记住以便与他们的设备成功交互的标准命令的数量。