技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种终端设备及双模型校验的唤醒方法与流程 > 正文

一种终端设备及双模型校验的唤醒方法与流程

国知局
2024-06-21 11:41:19

本技术涉及语音识别，尤其涉及一种终端设备及双模型校验的唤醒方法。

背景技术：

1、终端设备是指具有声音采集功能的电子设备，可以是智能电视、手机、智能音箱、电脑、机器人等电子设备。以智能电视为例，智能电视是基于internet应用技术，具备开放式操作系统与芯片，拥有语音识别功能模块，可实现双向人机交互功能的电视产品，用于满足用户多样化和个性化需求。

2、用户还可以通过语音唤醒终端设备的语音辅助功能，比如可以通过唤醒使终端设备从待机状态进入工作状态或在工作状态时启动语音助手。语音唤醒又称为关键词检测，是语音识别技术的重要分支。语音唤醒是指终端设备从连续不断的语音流中检测特定的关键词，在检测到特定的关键词时发出信号，进而唤醒终端设备。其中，特定的关键词即为唤醒词，用户可以通过携带有唤醒词的语音唤醒对应的终端设备。

3、语音唤醒的过程是通过终端设备中内置的唤醒模型执行的，而唤醒模型的计算能力与模型的复杂度呈正相关。也就是说，唤醒模型的复杂度越高，其对应的计算能力则越强，所占用的系统资源也越多。但是，部分终端设备的内存体积较小，无法适配复杂度较高的唤醒模型。如果采用复杂度较低的唤醒模型，则会导致唤醒模型的误唤醒率增加，降低终端设备中语音唤醒的精准度。

技术实现思路

1、本技术提供了一种终端设备及双模型校验的唤醒方法，以解决终端设备中语音唤醒精准度低的问题。

2、第一方面，本技术一些实施例提供一种终端设备，包括声音采集器与控制器。其中，所述声音采集器被配置为采集用户输入的语音数据；所述控制器被配置为：

3、获取语音数据，以及对所述语音数据执行音量归一化处理；

4、通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度；所述第一唤醒模型与所述第二唤醒模型基于正样本数据、负样本数据训练获得，训练所述第一唤醒模型时的正样本数据多于训练所述第二唤醒模型时的正样本数据；

5、设置所述语音数据的输入步长；

6、计算第一目标置信度与第二目标置信度的和值；所述第一目标置信度为大于第一唤醒阈值的第一置信度，所述第二目标置信度为大于第二唤醒阈值的第二置信度，所述第一目标置信度对应的语音数据与所述第二目标置信度对应的语音数据间隔所述输入步长；

7、在所述和值大于第三唤醒阈值时，唤醒所述终端设备，所述第三唤醒阈值大于所述第一唤醒阈值与所述第二唤醒阈值。

8、本技术一些实施例中，所述正样本数据包括唤醒词语音数据与静音数据，所述唤醒词语音数据为包括唤醒词特征的语音数据，所述静音数据为不包括人声的音频数据；所述负样本数据包括非唤醒词语音数据，所述非唤醒词语音数据为不包括唤醒词特征的语音数据。

9、本技术一些实施例中，所述控制器还被配置为：获取第一样本数据，所述第一样本数据包括所述第一唤醒模型的正样本数据与负样本数据；所述第一样本数据中所述静音数据的数据流长度为第一长度；通过所述第一样本数据训练所述第一唤醒模型；获取第二样本数据，所述第二样本数据包括所述第二唤醒模型的正样本数据与负样本数据；所述第二样本数据中所述静音数据的数据流长度为第二长度，所述第二长度大于第一长度；通过所述第二样本数据训练所述第二唤醒模型。

10、本技术一些实施例中，所述控制器执行通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度，被配置为：解析所述语音数据的声学特征；计算所述声学特征与所述唤醒词特征的相似度。

11、本技术一些实施例中，所述控制器还被配置为：获取正样本音量范围与负样本音量范围，所述正样本音量范围包括一个音量区间，所述负样本音量范围包括至少两个音量区间；按照所述正样本音量范围对所述正样本数据执行音量归一化处理，以及按照所述负样本音量范围对所述负样本数据执行音量归一化处理。

12、本技术一些实施例中，所述控制器还被配置为：获取所述第一唤醒模型的校验状态参数；如果所述校验状态参数为初始参数，对所述语音数据执行预处理，并将所述语音数据输入至所述第一唤醒模型，以通过第一唤醒模型检测所述语音数据的第一置信度；如果所述校验状态参数为非初始参数，对所述语音数据执行预处理，并将所述语音数据输入至所述第二唤醒模型，以通过第二唤醒模型检测所述语音数据的第二置信度。

13、本技术一些实施例中，所述控制器执行设置所述语音数据的输入步长，被配置为：监测所述第一唤醒模型输出的第一置信度；如果所述第一置信度大于所述第一唤醒阈值，则调整所述输入步长为第一步长；如果所述第一置信度小于或等于所述第一唤醒阈值，则调整所述输入步长为第二步长，所述第二步长为所述第一步长的二倍。

14、本技术一些实施例中，所述控制器执行设置所述语音数据的输入步长，还被配置为：监测所述第二唤醒模型输出的第二置信度；如果所述第二置信度大于所述第二唤醒阈值，则调整所述输入步长为所述第一步长；如果所述第二置信度小于或等于所述第二唤醒阈值，则调整所述输入步长为所述第二步长。

15、本技术一些实施例中，还包括显示器，所述显示器被配置为显示用户界面；所述控制器执行唤醒所述终端设备，被配置为：获取所述语音数据的唤醒点，所述唤醒点为所述和值大于第三唤醒阈值时语音数据的时间点；清除早于所述唤醒点的语音数据；根据所述语音数据生成语音指令；响应所述语音指令，以及控制所述显示器显示唤醒应答界面。

16、第二方面，本技术一些实施例还提供一种双模型校验的唤醒方法，包括：

17、获取语音数据，以及对所述语音数据执行音量归一化处理；

18、通过第一唤醒模型检测所述语音数据的第一置信度，以及通过第二唤醒模型检测所述语音数据的第二置信度；所述第一唤醒模型与所述第二唤醒模型基于正样本数据、负样本数据训练获得，训练所述第一唤醒模型时的正样本数据多于训练所述第二唤醒模型时的正样本数据；

19、设置所述语音数据的输入步长；

20、计算第一目标置信度与第二目标置信度的和值；所述第一目标置信度为大于第一唤醒阈值的第一置信度，所述第二目标置信度为大于第二唤醒阈值的第二置信度，所述第一目标置信度对应的语音数据与所述第二目标置信度对应的语音数据间隔所述输入步长；

21、在所述和值大于第三唤醒阈值时，唤醒终端设备，所述第三唤醒阈值大于所述第一唤醒阈值与所述第二唤醒阈值。

22、由以上技术方案可知，本技术一些实施例提供的终端设备及双模型校验的唤醒方法，所述方法可以获取语音数据，并对语音数据执行音量归一化处理。再通过第一唤醒模型检测语音数据的第一置信度，以及通过第二唤醒模型检测语音数据的第二置信度。其中，训练第一唤醒模型时的正样本多于训练第二唤醒模型时的正样本。设置语音数据的输入步长，并计算第一目标置信度与第二目标置信度的和值。其中，第一目标置信度为大于第一唤醒阈值的第一置信度，第二目标置信度为大于第二唤醒阈值的第二置信度，且二者对应的语音数据间隔输入步长。在和值大于第三唤醒阈值时，唤醒终端设备。所述方法基于双模型对语音数据执行校验，并设置三个不同的唤醒阈值，可提高语音唤醒的精确度。