技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于处理虚拟个人助理的命令音频的方法和装置与流程 > 正文

用于处理虚拟个人助理的命令音频的方法和装置与流程

国知局
2024-06-21 11:32:28

本公开的实施方案总体上涉及语音处理系统，并且更具体地，涉及用于对从多个源指向虚拟私人助理装置的命令进行授权和优先级排序的技术。

背景技术：

1、虚拟个人助理(vpa)部署在许多现代装置中以用于提供对用户讲出的可听命令的处理。虚拟个人助理也有不同的名称，诸如智能虚拟助理(iva)、智能个人助理(ipa)等。vpa可以各种形式体现，包括作为独立的智能扬声器装置、作为在智能电话或其他计算机装置上执行的软件应用程序、作为具有车辆导航、驾驶员辅助和/或信息娱乐功能的汽车系统中的嵌入式部件，等等。具有vpa的用户通常讲出在vpa的传声器或其他音频输入装置的范围内的音频命令。vpa接收音频声波，将音频声波数字化，并从音频声波中提取音频命令。vpa基于vpa如何被编程来响应各种口语单词来执行音频命令。例如，vpa可被编程来响应各种音频命令来为用户执行日常任务，诸如跟踪任务列表、给用户联系人列表中包括的人员打电话或发短信、播放来自媒体商店的视频和/或音频内容、回答问题等等。

2、vpa的一个潜在缺点在于vpa不加区别地响应经由音频输入接收到的所有音频命令。在一些情况下，多个人可能正在讲话，或者在vpa附近，另一音频源可能正在播放。作为响应，vpa试图处理从所有扬声器和音频源接收到的音频输入。vpa解释从音频输入中提取的所有单词，并执行vpa从提取的单词中确定的任何音频命令。这可能导致不可靠、不明确、不期望、非预期和/或矛盾的结果。

3、如前所述，用于处理虚拟个人助理装置的语音输入的改进技术将是有用的。

技术实现思路

1、本公开的各种实施方案阐述了一种用于处理虚拟个人助理的音频命令的计算机实施的方法。所述方法包括将在音频输入信号中检测到的语音分割成多个语音片段，其中给定语音片段中包括的语音是由单个说话者说出的。所述方法还包括将多个语音片段中包括的语音片段聚类成多个聚类簇，其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的。所述方法还包括确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的。所述方法还包括致使第一聚类簇中包括的第一音频命令执行。

2、其他实施方案包括但不限于：实施所公开技术的一个或多个方面的系统，以及包括用于执行所公开技术的一个或多个方面的指令的一个或多个计算机可读介质。

3、所公开的技术相对于现有技术的至少一个技术优点在于，利用所公开的技术，语音处理系统能够消除由非预期源说出的音频命令。因此，相对于常规系统，语音处理系统执行非预期的或不期望的音频命令的可能性被降低。此外，语音处理系统能够丢弃来自非授权用户的语音，这相对于常规系统为授权用户提供了改进的防护和安全性。这些技术优点表示相对于现有技术方法的一个或多个技术改进。

技术特征：

1.一种用于处理虚拟个人助理的音频命令的计算机实施的方法，所述方法包括：

2.如权利要求1所述的计算机实施的方法，其还包括：

3.如权利要求1所述的计算机实施的方法，其还包括：

4.如权利要求1所述的计算机实施的方法，其还包括：

5.如权利要求1所述的计算机实施的方法，其还包括：

6.如权利要求1所述的计算机实施的方法，其中确定所述第一聚类簇是由所述第一授权说话者说出的包括：

7.如权利要求1所述的计算机实施的方法，其还包括：

8.如权利要求7所述的计算机实施的方法，其还包括：

9.如权利要求7所述的计算机实施的方法，其中所述一个或多个话语包括由所述第一授权说话者讲了指定次数的固定话语。

10.如权利要求7所述的计算机实施的方法，其中所述一个或多个话语包括由所述第一授权说话者讲了指定持续时间的话语。

11.一种装置，其包括：

12.如权利要求11所述的装置，其中所述一个或多个处理器还：

13.如权利要求11所述的装置，其中所述一个或多个处理器还：

14.如权利要求11所述的装置，其中所述一个或多个处理器还：

15.如权利要求11所述的装置，其中所述一个或多个处理器还：

16.如权利要求11所述的装置，其中为了确定所述第一聚类簇是由所述第一授权说话者说出的，所述一个或多个处理器还：

17.如权利要求11所述的装置，其中所述一个或多个处理器还：

18.一种或多种非暂时性计算机可读介质，其存储程序指令，所述程序指令在由一个或多个处理器执行时，致使所述一个或多个处理器执行以下步骤：

19.如权利要求18所述的一种或多种非暂时性计算机可读介质，其中所述步骤还包括：

20.如权利要求18所述的一种或多种非暂时性计算机可读介质，其中所述步骤还包括：

技术总结所公开的实施方案包括用于处理虚拟个人助理的音频命令的技术。语音处理系统将在音频输入信号中检测到的语音分割成多个语音片段，其中给定语音片段中包括的语音是由单个说话者说出的。所述语音处理系统将多个语音片段中包括的语音片段聚类成多个聚类簇，其中多个聚类簇中包括的每个聚类簇是由不同的说话者说出的。所述语音处理系统确定多个聚类簇中包括的第一聚类簇是由第一授权说话者说出的。所述语音处理系统致使虚拟个人助理执行第一聚类簇中包括的第一音频命令。技术研发人员：N·坦登,J·米斯特里受保护的技术使用者：哈曼国际工业有限公司技术研发日：技术公布日：2024/3/4