技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法和装置与流程 > 正文

语音识别方法和装置与流程

国知局
2024-06-21 11:52:57

本公开一般涉及人工智能（artificial intelligence，ai）领域，具体来说，本公开涉及语音识别方法和装置。

背景技术：

1、当前，智能家用电器的使用逐渐增多。一些智能家用电器中配备有语音识别系统，能够响应于用户的语音指令来执行预定的动作。

2、然而，智能家用电器在使用中，存在着错误地识别用户的语音的情况。例如，周围环境产生的噪声可能被错误地识别为语音信号。另外，在用户只是在智能家用电器附近交谈而没有发出语音指令的情况下，智能家用电器也可能错误地将这些交谈识别为语音指令而进行错误的动作，即被误激活。

技术实现思路

1、有鉴于此，本公开的实施例中提出一种降低设备的误激活率的语音识别方法和装置。

2、根据本公开的第一方面，提供了一种语音识别方法，包括：接收来自语音源的语音信号；用单个神经网络处理语音信号，生成包含多个推断结果的推断结果序列，其中，每个推断结果对应于预定义的多个标签之一并且具有概率，每个预定义的标签具有第一语音特征和第二语音特征；以及基于多个推断结果的概率比较与多个推断结果所对应的多个标签之间的距离比较的关联性来确定推断结果序列是否准确。

3、在一些实施例中，多个推断结果所对应的多个标签之间的距离比较进一步包括：将多个推断结果所对应的多个标签中具有最大概率的标签确定为参照标签；以及将多个标签中的其他标签与参照标签的距离进行比较。

4、在一些实施例中，基于多个推断结果的概率比较与多个推断结果所对应的多个标签之间的距离比较的关联性来确定推断结果序列是否准确进一步包括：如果具有较大概率的标签与参照标签的距离小于或等于具有较小概率的标签与参照标签的距离，则确定推断结果序列准确。

5、在一些实施例中，基于多个推断结果的概率比较与多个推断结果所对应的多个标签之间的距离比较的关联性来确定推断结果序列是否准确进一步包括：如果具有较大概率的标签与参照标签的距离大于具有较小概率的标签与参照标签的距离，则确定推断结果序列不准确。

6、在一些实施例中，在推断结果序列中，多个推断结果按照概率从大到小的顺序排列。

7、在一些实施例中，基于多个推断结果的概率比较与多个推断结果所对应的多个标签之间的距离比较的关联性来确定推断结果序列是否准确进一步包括：按照多个标签中的其他标签与参照标签的距离从小到大的顺序，对推断结果序列进行重新排序，以确定校验序列；以及基于推断结果序列与校验序列的比较来确定推断结果序列是否准确。

8、在一些实施例中，基于推断结果序列与校验序列的比较来确定推断结果序列是否准确进一步包括：计算校验序列中的标签与参照标签的距离相对于推断结果序列的中对应位置的标签与参照标签的距离之间的个体偏差；基于个体偏差计算校验序列相对于推断结果序列的总体偏差；以及将总体偏差与阈值进行比较来确定推断结果是否准确。

9、在一些实施例中，校验序列中的标签与参照标签的距离表示为dsorted[i]；推断结果序列中对应位置的标签与参照标签的距离表示为dinference[i]；个体偏差为dsorted[i]-dinference[i]；总体偏差为，其中i表示序号，k是在计算中使用的个体偏差的数量。

10、在一些实施例中，语音识别方法还包括：设置校验范围；根据校验范围选择推断结果序列的子集；以及基于推断结果序列的子集来确定推断结果序列是否准确。

11、在一些实施例中，语音识别方法从推断结果序列中删除无效结果。

12、在一些实施例中，第一语音特征选自预定义的多个关键词。在一些实施例中，第二语音特征选自指示语音方向区域的多个值。

13、在一些实施例中，多个标签中的两个标签之间的距离基于两个标签的第一语音特征之间的第一距离与两个标签的第二语音特征之间的第二距离。

14、在一些实施例中，多个标签中的两个标签之间的距离是第一距离的平方与第二距离的平方之和的平方根。

15、在一些实施例中，多个标签中的两个标签之间的距离是第一距离与第二距离之和。

16、在一些实施例中，当两个标签的第一语音特征为同一关键词时，第一距离为0；当两个标签的第一语音特征为不同关键词时，第一距离为1。

17、在一些实施例中，当两个标签的第二语音特征所指示的语音方向区域相同时，第二距离为0；当两个标签的第二语音特征所指示的语音方向区域相邻时，第二距离为1；当两个标签的第二语音特征所指示的语音方向区域被间隔开时，第二距离为两个标签的第二语音特征所指示的语音方向区域之间间隔的区域的数量加1。

18、在一些实施例中，语音识别方法还包括：将以语音源为中心的区域均匀地划分为多个语音方向区域。

19、在一些实施例中，语音识别方法还包括：将以语音源为中心的区域非均匀地划分为多个语音方向区域。

20、在一些实施例中，将以语音源为中心的区域非均匀地划分为多个语音方向区域进一步包括：将语音源发出语音的方向所在的语音方向区域定义为参照语音方向区域；调整多个语音方向区域所包括的角度范围，以使得推断结果中处于参照语音方向区域的概率最大并且处于其他语音方向区域的概率排序与其他语音方向区域和参照语音方向区域之间的第二距离的排序具有关联性。

21、在一些实施例中，语音识别方法还包括：在确定推断结果序列准确的情况下，将语音信号识别为多个标签中具有最大概率的标签。

22、根据本公开的第二方面，提供了一种计算设备，其特征在于，包括：处理器；以及存储器，其上存储有指令，当指令在处理器上执行时促使处理器执行任一上述方法。

23、根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有指令，其特征在于，当指令在处理器上执行时促使处理器执行任一上述方法。

24、根据本公开的第四方面，提供了一种计算机程序产品，其上存储有指令，其特征在于，当指令在处理器上执行时促使处理器执行任一上述方法。并且，计算机程序产品可以存储在计算机可读存储介质上。

25、根据本公开的实施例，通过采用单个神经网络来同时识别语音中的关键字和用户意图，并且基于多个推断结果的概率比较与多个推断结果所对应的多个标签之间的距离比较的关联性来选择性地忽略一些推断结果序列，能够以较低的复杂度来降低设备的误激活率。

26、根据在下文中所描述的实施例，本公开的这些和其他方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述多个推断结果所对应的多个标签之间的距离比较进一步包括：

3.如权利要求2所述的方法，其特征在于，基于所述多个推断结果的概率比较与所述多个推断结果所对应的多个标签之间的距离比较的关联性来确定所述推断结果序列是否准确进一步包括：

4.如权利要求1-3中的任一项所述的方法，其特征在于，在所述推断结果序列中，所述多个推断结果按照概率从大到小的顺序排列。

5.如权利要求4在引用权利要求2时所述的方法，其特征在于，基于所述多个推断结果的概率比较与所述多个推断结果所对应的多个标签之间的距离比较的关联性来确定所述推断结果序列是否准确进一步包括：

6.如权利要求5所述的方法，其特征在于，基于所述推断结果序列与所述校验序列的比较来确定所述推断结果序列是否准确进一步包括：

7.如权利要求6所述的方法，其特征在于，

8.如权利要求1-7中的任一项所述的方法，其特征在于，所述方法还包括：

9.如权利要求1-8中的任一项所述的方法，其特征在于，所述方法还包括：从所述推断结果序列中删除无效结果。

10.如权利要求1-9中的任一项所述的方法，其特征在于，所述第一语音特征选自预定义的多个关键词；以及

11.如权利要求10所述的方法，其特征在于，所述多个标签中的两个标签之间的距离基于所述两个标签的所述第一语音特征之间的第一距离与所述两个标签的所述第二语音特征之间的第二距离。

12.如权利要求11所述的方法，其特征在于，

13.如权利要求11或12所述的方法，其特征在于，

14.如权利要求11-13中的任一项所述的方法，其特征在于，

15.如权利要求1-14中的任一项所述的方法，其特征在于，所述方法还包括：

16.如权利要求1-14中的任一项所述的方法，其特征在于，所述方法还包括：

17.如权利要求16在引用权利要求14时所述的方法，其特征在于，将以所述语音源为中心的区域非均匀地划分为多个语音方向区域进一步包括：

18.如权利要求1-17中的任一项所述的方法，其特征在于，进一步包括：

19.一种计算设备，其特征在于，包括：

20.一种计算机可读存储介质，其上存储有指令，其特征在于，所述指令当在处理器上执行时促使所述处理器执行权利要求1-18中的任一项所述的方法。

技术总结本公开涉及人工智能，具体而言涉及语音识别方法和装置。在一些实施例中，一种语音识别方法包括：接收来自语音源的语音信号；用单个神经网络处理语音信号，生成包含多个推断结果的推断结果序列，其中，每个推断结果对应于预定义的多个标签之一并且具有概率，每个预定义的标签具有第一语音特征和第二语音特征；以及基于多个推断结果的概率比较与多个推断结果所对应的多个标签之间的距离比较的关联性来确定推断结果序列是否准确。通过本公开的实施例，能够以较低的复杂度来降低误激活率。技术研发人员：焦玉中,Z·艾受保护的技术使用者：芯倍微科技有限公司技术研发日：技术公布日：2024/5/20