技术新讯 > 乐器声学设备的制造及制作,分析技术 > 具有软热词的自动语音识别的制作方法 > 正文

具有软热词的自动语音识别的制作方法

国知局
2024-06-21 11:50:24

本公开涉及按程度的热词。

背景技术：

1、支持语音的环境(例如，家庭、工作场所、学校、汽车等)允许用户向基于计算机的系统大声说出查询或命令，该基于计算机的系统处理(field)并回答查询和/或基于命令执行功能。可以使用分布在环境的各个房间或区域的连接的麦克风设备的网络来实现启用语音的环境。这些设备可以使用热词来帮助辨别给定话语何时是针对系统的，而不是针对环境中存在的另一人的话语。因此，设备可以在睡眠状态或休眠状态下操作并且仅当检测到的话语包括热词时才唤醒。一旦唤醒，设备可以继续执行更昂贵的处理，诸如完整的设备上自动语音识别(asr)或基于服务器的asr。

技术实现思路

1、本公开的一个方面提供了一种用于热词的软接受的计算机实现的方法。当由数据处理硬件执行时，计算机实现的方法使数据处理硬件执行操作。这些操作包括接收表征由热词检测器在由用户设备捕获的流式音频中检测到的软热词事件的音频数据。这些操作还包括处理音频数据以确定音频数据对应于指定要在用户设备上执行的动作的查询。在不触发用户设备或另一设备上的动作的执行的情况下，操作包括提供通知用于从用户设备输出，其中该通知提示与用户设备相关联的用户提供肯定输入指示以便触发在用户设备或另一设备上的动作的执行，并且当用户未能提供肯定输入指示时，指令用户设备或另一设备不执行由查询指定的动作。

2、本公开的另一方面提供了一种用于软接受热词的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，当在数据处理硬件上执行时，指令使数据处理硬件执行操作。这些操作包括接收表征由热词检测器在由用户设备捕获的流式音频中检测到的软热词事件的音频数据。这些操作还包括处理音频数据以确定音频数据对应于指定要在用户设备上执行的动作的查询。在不触发用户设备或另一设备上的动作的执行的情况下，操作包括提供通知用于从用户设备的输出，其中该通知提示与用户设备相关联的用户提供肯定输入指示以便触发在用户设备或另一设备上的动作的执行，并且当用户未能提供肯定输入指示时，指令用户设备或另一设备不执行由查询指定的动作。

3、该方法或系统的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，热词检测器驻留在用户设备上并且被配置为当指示由用户设备捕获的音频流包括热词的存在的可能性的置信分数满足第一阈值分数并且不满足第二阈值分数时，检测软热词事件。在一些示例中，操作还包括确定是否在自提供通知用于从用户设备的输出起的预定持续时间内接收到肯定输入指示，以及当在预定持续时间内没有接收到肯定输入指示时确定用户未能提供肯定输入指示。在一些配置中，操作包括接收否定输入指示，该否定输入指示指示用户不希望用户设备或另一设备执行由查询指定的动作，并且响应于接收到否定输入指示确定用户未能提供肯定输入指示。这里，为从用户设备的输出而提供的通知还提示用户提供指示用户不希望用户设备或另一设备执行由查询指定的动作的否定输入指示。在一些实施方式中，提供通知用于用户设备的输出包括指令在用户设备上执行的图形用户界面以将通知呈现为视觉通知以显示在用户设备的屏幕上。在这些实施方式中，操作还包括当用户未能提供肯定输入指示时指令图形用户界面去除显示在用户设备的屏幕上的视觉通知。提供通知用于从用户设备的输出可以包括指令用户设备将通知输出为来自用户设备的扬声器的可听通知。

4、该方法或系统还可以包括还从用户接收肯定指示并且响应于接收肯定输入指示而触发在用户设备或另一设备上执行由查询指定的动作的发生。从用户接收肯定输入指示可以包括从用户接收速度输入并且确定语音输入包括表征用户设备或另一设备执行由查询指定的动作的意图的一个或多个术语。在一些示例中，从用户接收肯定输入指示包括接收指示对用户设备的屏幕上显示的肯定图形元素的选择的用户输入指示。

5、该方法或系统的一些配置包括以下操作：在提供通知用于从用户设备的输出之后，激活暖模型，暖模型被配置为在不执行语音识别的情况下检测表征肯定输入指示的一个或多个口头术语或者表征指示用户不希望用户设备或另一设备执行由查询指定的动作的否定输入指示的一个或多个其他口头术语中的至少一项的存在。在一些示例中，操作可以包括在提供通知用于用户设备的输出后，指令与所述数据处理硬件(410)通信的自动语音识别器(152)以足以识别表征肯定输入指示的一个或多个口头术语或者表征指示用户不希望用户设备或另一设备执行由查询指定的动作的否定输入指示的一个或多个其他口头术语中的至少一项的减少的功能来进行操作。另外或替代地，该方法或系统的操作还可以包括，当用户未能提供肯定输入指示时，删除所接收到的音频片段的任何存储。

6、本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中变得显而易见。

技术特征：

1.一种计算机实现的方法(300)，所述方法在由数据处理硬件(410)执行时使所述数据处理硬件(410)执行操作，所述操作包括：

2.根据权利要求1所述的计算机实现的方法(300)，其中，所述热词检测器(200)驻留在所述用户设备(110)上并且被配置为当置信度分数(212)指示由所述用户设备(110)捕获的所述音频流包括热词(24)的存在的可能性满足第一阈值分数(214)并且不满足第二阈值分数(216)时检测所述软热词事件(202)。

3.根据权利要求1或2所述的计算机实现的方法(300)，其中，所述操作还包括：

4.根据权利要求1-3中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括：

5.根据权利要求4所述的计算机实现的方法(300)，其中，为从所述用户设备(110)输出而提供的所述通知(204)还提示所述用户(10)提供所述否定输入指示(16n)，所述否定输入指示(16n)指示所述用户(10)不希望所述用户设备(110)或所述另一设备执行由所述查询(22)指定的所述动作(148)。

6.根据权利要求1-5中的任一项所述的计算机实现的方法(300)，其中，提供所述通知(204)用于从所述用户设备(110)输出包括指令在所述用户设备(110)上执行的图形用户界面以将所述通知(204)呈现为视觉通知以显示在所述用户设备(110)的屏幕(118)上。

7.根据权利要求6所述的计算机实现的方法(300)，其中，所述操作还包括当所述用户(10)未能提供所述肯定输入指示(16)时指令所述图形用户界面去除显示在所述用户设备(110)的所述屏幕(118)上的所述视觉通知。

8.根据权利要求1-7中的任一项所述的计算机实现的方法(300)，其中，提供所述通知(204)用于从所述用户设备(110)输出包括指令所述用户设备(110)将所述通知(204)输出为来自所述用户设备(110)的扬声器(116)的声音通知。

9.根据权利要求1-8中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括：

10.根据权利要求9所述的计算机实现的方法(300)，其中，接收来自所述用户(10)的所述肯定输入指示(16)包括：

11.根据权利要求9或10所述的计算机实现的方法(300)，其中，接收来自所述用户(10)的所述肯定输入指示(16)包括接收指示对所述用户设备(110)的屏幕(118)上显示的肯定图形元素的选择的用户输入指示。

12.根据权利要求1-11中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括：在提供所述通知(204)用于从所述用户设备(110)输出之后，激活暖词模型，所述暖词模型被配置为在不执行语音识别的情况下检测以下中的至少一项的存在：

13.根据权利要求1-12中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括在提供所述通知(204)用于从所述用户设备(110)输出之后，指令与所述数据处理硬件(410)通信的自动语音识别器(152)以足以识别以下中的至少一项的减少的功能进行操作：

14.根据权利要求1-13中的任一项所述的计算机实现的方法(300)，其中，所述操作还包括当所述用户(10)未能提供所述肯定输入指示(16)时，删除所接收的音频片段的任何存储。

15.一种系统(100)，包括：

16.根据权利要求15所述的系统(100)，其中，所述热词检测器(200)驻留在所述用户设备(110)上并且被配置为当置信度分数(212)指示由所述用户设备(110)捕获的所述音频流包括热词(24)的存在的可能性满足第一阈值分数(214)并且不满足第二阈值分数(216)时检测所述软热词事件(202)。

17.根据权利要求15或16所述的系统(100)，其中，所述操作还包括：

18.根据权利要求15-17中的任一项所述的系统(100)，其中，所述操作还包括：

19.根据权利要求18所述的系统(100)，其中，为从所述用户设备(110)输出而提供的所述通知(204)还提示所述用户(10)提供所述否定输入指示(16n)，所述否定输入指示(16n)指示所述用户(10)不希望所述用户设备(110)或所述另一设备执行由所述查询(22)指定的所述动作(148)。

20.根据权利要求15-19中的任一项所述的系统(100)，其中，提供所述通知(204)用于从所述用户设备(110)输出包括指令在所述用户设备(110)上执行的图形用户界面将所述通知(204)呈现为视觉通知显示在所述用户设备(110)的屏幕(118)上。

21.根据权利要求20所述的系统(100)，其中，所述操作还包括当所述用户(10)未能提供所述肯定输入指示(16)时指令所述图形用户界面去除显示在所述用户设备(110)的所述屏幕(118)上的所述视觉通知。

22.根据权利要求15-21中的任一项所述的系统(100)，其中，提供所述通知(204)用于从所述用户设备(110)输出包括指令所述用户设备(110)将所述通知(204)输出为来自所述用户设备(110)的扬声器(116)的声音通知。

23.根据权利要求15-22中的任一项所述的系统(100)，其中，所述操作还包括：

24.根据权利要求23所述的系统(100)，其中，接收来自所述用户(10)的所述肯定输入指示(16)包括：

25.根据权利要求23或24所述的系统(100)，其中，接收来自所述用户(10)的所述肯定输入指示(16)包括接收指示对所述用户设备(110)的屏幕(118)上显示的肯定图形元素的选择的用户输入指示。

26.根据权利要求15-25中的任一项所述的系统(100)，其中，所述操作还包括：在提供所述通知(204)用于从所述用户设备(110)输出之后，激活暖词模型，所述暖词模型被配置为在不执行语音识别的情况下检测以下中的至少一项的存在：

27.根据权利要求15-26中的任一项所述的系统(100)，其中，所述操作还包括在提供所述通知(204)用于从所述用户设备(110)输出之后，指令与所述数据处理硬件(410)通信的自动语音识别器(152)以足以识别以下中的至少一项的减少的功能进行操作：

28.根据权利要求15-27中的任一项所述的系统(100)，其中，所述操作还包括当所述用户(10)未能提供所述肯定输入指示(16)时，删除所接收的音频片段的任何存储。

技术总结一种用于软接受热词(24)的方法(300)接收表征由热词检测器(200)在由用户设备(110)捕获的流送音频(12)中检测到的软热词事件(202)的音频数据(14)。该方法还处理音频数据以确定音频数据对应于指定要在用户设备上执行的动作(148)的查询(22)。在不触发用户设备上的动作的执行的情况下，该方法提供通知(204)用于从用户设备输出，其中该通知提示与用户设备相关联的用户(10)提供肯定输入指示(16)以触发用户设备上的动作的执行，并且当用户未能提供肯定输入指示时，指令用户设备不执行由查询指定的动作。技术研发人员：布雷特·阿勒丁·巴罗斯,詹姆斯·弗林,西奥·苟盖利受保护的技术使用者：谷歌有限责任公司技术研发日：技术公布日：2024/5/9