技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音唤醒方法、装置和电子设备与流程 > 正文

一种语音唤醒方法、装置和电子设备与流程

国知局
2024-06-21 11:41:22

本公开涉及语音识别，尤其涉及一种语音唤醒方法、装置和电子设备。

背景技术：

1、在人机交互的场景中，语音识别对自然语言理解和自然语言生成，起着至关重要的作用。语音识别的正确性是下游任务的基础和瓶颈所在，如：用户在使用电子设备的过程中，可以通过语音的方式控制电子设备执行相应的操作。在此过程中，电子设备通过接收用户发出的唤醒词，来启动语音交互功能。

2、在此过程中，电子设备常常会出现用户在说话的过程中说出了与唤醒词相近的词，或者由于环境中的其他声音导致电子设备误识别出唤醒词，导致电子设备的误唤醒概率较高，用户的体验较差。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种语音唤醒方法、装置和电子设备。

2、本公开的技术方案如下：

3、第一方面，本公开提供一种显示设备，包括：通信器，被配置为获取回采信号、音频采集装置采集的回波信号，以及当前环境的待识别音频数据；其中，回采信号为回采至少两个音频播放装置发出的扫频信号得到的，回波数据为扫频信号遇到物体反射后由音频采集装置采集到的；处理器，被配置为将预设唤醒词与通信器获取的待识别音频数据进行匹配，得到待识别音频数据与预设唤醒词的置信度；处理器，还被配置为基于通信器获取的回采信号和通信器获取的回波信号，确定配置参数；其中，配置参数包括第一相似度阈值；处理器，还被配置在相似度大于第一相似度阈值的情况下，启动语音交互功能。

4、第二方面，本公开提供一种语音唤醒方法，包括：获取回采信号、音频采集装置采集的回波信号，以及当前环境的待识别音频数据；其中，回采信号为回采至少两个音频播放装置发出的扫频信号得到的，回波数据为扫频信号遇到物体反射后由音频采集装置采集到的；将待识别音频数据与预设唤醒词进行匹配，得到待识别音频数据与预设唤醒词的置信度；基于回采信号和回波信号，确定配置参数；其中，配置参数包括第一相似度阈值；在相似度大于第一相似度阈值的情况下，启动语音交互功能。

5、第三方面，本公开提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在执行计算机程序时，使得电子设备实现如第二方面提供的任一项的语音唤醒方法。

6、第四方面，本发明提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第二方面提供的任一项的语音唤醒方法。

7、第五方面，本发明提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第二方面提供的任一项的语音唤醒方法。

8、需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中，第一计算机可读存储介质可以与显示设备的处理器封装在一起的，也可以与显示设备的处理器单独封装，本公开对此不作限定。

9、本公开中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

10、在本公开中，上述显示设备的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

11、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

12、本公开提供的技术方案与现有技术相比具有如下优点：

13、显示设备在获取到回采信号、音频采集装置采集的回波信号，以及当前环境的待识别音频数据后，显示设备将预设唤醒词与待识别音频数据进行匹配，得到待识别音频数据与预设唤醒词的置信度。如此，可以确定出当前环境中是否有人需要启动语音交互功能。之后，显示设备基于回采信号和回波信号，确定配置参数。显示设备在相似度大于第一相似度阈值的情况下，启动语音交互功能。这样，显示设备在启动语音交互功能时，需要基于待识别音频数据与预设唤醒词的置信度，以及由回采信号和回波信号确定的配置参数的大小关系，确定是否启动语音交互功能，如：置信度小于或等于第一相似度阈值时，此时不启动语音交互功能；置信度大于第一相似度阈值时，此时启动语音交互功能，可以看出通过本公开实施例提供的语音唤醒方法，可以基于回采信号和回波信号确定的配置参数，剔除置信度小于或等于第一相似度阈值的情况，从而可以降低语音交互功能被误唤醒的次数，提升语音交互功能的唤醒准确率，解决了如何降低电子设备的误唤醒概率的问题。

技术特征：

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为对所述通信器获取的所述待识别音频数据进行第一预处理，得到预处理的待识别音频数据；其中，所述第一预处理包括回声消除、波束形成、去混响和噪声抑制中的一项或者多项；

3.根据权利要求1所述的显示设备，其特征在于，所述处理器，进一步被配置为对所述通信器获取的所述回采信号进行回声消除，得到第一信号；

4.根据权利要求3所述的显示设备，其特征在于，所述处理器，进一步被配置为基于所述差频信号进行人体检测，确定预设区域内存在人体时，基于所述人体与所述显示设备的实际距离，确定配置参数。

5.根据权利要求4所述的显示设备，其特征在于，所述处理器，进一步被配置为基于所述人体与显示设备的实际距离，确定所述实际距离对应的距离区间；

6.根据权利要求3所述的显示设备，其特征在于，所述处理器，进一步被配置为基于所述差频信号进行人体检测，确定预设区域内不存在人体时，确定所述配置参数为默认参数；其中，所述默认参数包括第二相似度阈值，所述第二相似度阈值大于所述第一相似度阈值。

7.根据权利要求1所述的显示设备，其特征在于，所述配置参数还包括音频系统增益值；

8.根据权利要求1-7任一项所述的显示设备，其特征在于，所述扫频信号包括调频连续波和单频信号。

9.一种语音唤醒方法，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被计算设备执行时，使得所述计算设备实现权利要求9所述的语音唤醒方法。

技术总结本公开涉及语音识别技术领域，尤其涉及一种语音唤醒方法、装置和电子设备，用于解决如何降低电子设备的误唤醒概率的问题。该方法包括：获取回采信号、音频采集装置采集的回波信号，以及当前环境的待识别音频数据；其中，回采信号为回采至少两个音频播放装置发出的扫频信号得到的，回波数据为扫频信号遇到物体反射后由音频采集装置采集到的；将待识别音频数据与预设唤醒词进行匹配，得到待识别音频数据与预设唤醒词的置信度；基于回采信号和回波信号，确定配置参数；其中，配置参数包括第一相似度阈值；在相似度大于第一相似度阈值的情况下，启动语音交互功能。技术研发人员：于云涛受保护的技术使用者：海信视像科技股份有限公司技术研发日：技术公布日：2024/4/7