技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种模型训练方法、唤醒方法、装置及存储介质与流程 > 正文

一种模型训练方法、唤醒方法、装置及存储介质与流程

国知局
2024-06-21 11:30:14

本公开涉及语音，尤其涉及一种模型训练方法、唤醒方法、装置及存储介质。

背景技术：

1、在智能硬件的语音交互场景中，是否能够准确地对终端设备进行语音唤醒(keyword spotting，kws)是至关重要的一步。目前常采用端上唤醒结合云上唤醒的方法对终端设备进行语音唤醒。可以在端上部署一个轻量的、功耗较低的语音唤醒模型，然后在云上部署一个较大的、功耗较高但识别效果较好的语音唤醒模型。

2、云上的语音唤醒模型由于功耗大，可以默认是不开启的；端上的语音唤醒模型由于功耗低，可以始终打开。端上的语音唤醒模型如果发现当前可能被唤醒的概率大于一定的阈值(例如是0.9)，则可以被直接唤醒；同时端上的语音唤醒模型可以维护另外一个阈值(例如是0.8)，如果发现一次唤醒请求的概率在两个阈值之间(即0.8-0.9之间)，则可以将唤醒请求发送到云上的语音唤醒模型进行二次唤醒。

3、但现有的端上唤醒结合云上唤醒的方法仍然存在语音唤醒模型效果差、唤醒率低的问题。

技术实现思路

1、有鉴于此，本公开提出了一种模型训练方法、唤醒方法、装置及存储介质，可以提升语音唤醒模型的效果，提高语音唤醒模型的唤醒率，使语音唤醒模型的唤醒结果更加准确。

2、根据本公开的一方面，提供了一种模型训练方法，所述方法包括：获取样本数据；其中，所述样本数据包括语音数据和与所述语音数据对应的文本数据；将所述样本数据输入至语音识别模型，对所述语音识别模型进行训练，得到所述语音识别模型的中间层输出的第一特征；在所述样本数据中包含唤醒词的情况下，将所述第一特征输入至第一语音唤醒模型，对所述第一语音唤醒模型进行训练。

3、在一种可能的实现方式中，所述第一语音唤醒模型位于云端，所述方法还包括：在所述样本数据中包含唤醒词的情况下，根据所述样本数据和所述第一语音唤醒模型，对第二语音唤醒模型进行训练，所述第二语音唤醒模型位于终端。

4、在一种可能的实现方式中，所述在所述样本数据中包含唤醒词的情况下，根据所述样本数据和所述第一语音唤醒模型，对第二语音唤醒模型进行训练，包括：将所述样本数据输入至所述第二语音唤醒模型，得到所述第二语音唤醒模型输出的第二概率分布；根据距离损失函数，对所述第二语音唤醒模型的参数进行调整，使参数调整后的第二语音唤醒模型输出的第二概率分布靠近所述第一语音唤醒模型输出的第一概率分布；其中，所述距离损失函数用于确定所述第二概率分布相对于所述第一概率分布的损失。

5、在一种可能的实现方式中，对所述语音识别模型、所述第一语音唤醒模型和所述第二语音唤醒模型的训练过程包括：在所述样本数据中包含唤醒词的情况下，根据第一损失函数、第二损失函数、第三损失函数和所述距离损失函数，确定总损失函数；根据所述总损失函数，更新所述语音识别模型、所述第一语音唤醒模型和所述第二语音唤醒模型；其中，所述第一损失函数为所述语音识别模型的损失函数；所述第二损失函数为所述第一语音唤醒模型的损失函数；所述第三损失函数为所述第二语音唤醒模型的损失函数。

6、在一种可能的实现方式中，所述在所述样本数据中包含唤醒词的情况下，根据第一损失函数、第二损失函数、第三损失函数和所述距离损失函数，确定总损失函数，包括：对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述距离损失函数进行加权求和，得到总损失函数。

7、根据本公开的另一方面，提供了一种唤醒方法，所述方法包括：接收输入的语音；在终端无法根据所述语音确定是否进行唤醒的情况下，将所述语音输入至云端的语音识别模型，得到所述语音识别模型的中间层输出的第二特征；将所述第二特征输入至云端的第一语音唤醒模型，确定是否进行唤醒。

8、在一种可能的实现方式中，在终端无法根据所述语音确定是否进行唤醒的情况下，将所述语音输入至云端的语音识别模型，得到所述语音识别模型的中间层输出的第二特征之前，还包括：将所述语音输入至终端的第二语音唤醒模型，得到第一唤醒概率；若所述第一唤醒概率大于第一阈值，则对所述终端进行唤醒；若所述第一唤醒概率小于第二阈值，则不唤醒所述终端；若所述第一唤醒概率在所述第一阈值与所述第二阈值之间，则确定所述终端无法根据所述语音确定是否进行唤醒；其中，所述第一阈值大于所述第二阈值。

9、在一种可能的实现方式中，在将所述第二特征输入至云端的第一语音唤醒模型，确定进行唤醒的情况下，所述方法还包括：将所述第二特征输入至所述语音识别模型的中间层之后的模块中，进行语音识别。

10、根据本公开的另一方面，提供了一种模型训练装置，所述装置包括：获取模块，用于获取样本数据；其中，所述样本数据包括语音数据和与所述语音数据对应的文本数据；语音识别模型训练模块，用于将所述样本数据输入至语音识别模型，对所述语音识别模型进行训练，得到所述语音识别模型的中间层输出的第一特征；第一语音唤醒模型训练模块，用于在所述样本数据中包含唤醒词的情况下，将所述第一特征输入至第一语音唤醒模型，对所述第一语音唤醒模型进行训练。

11、在一种可能的实现方式中，所述第一语音唤醒模型位于云端，所述装置还包括：第二语音唤醒模型训练模块，用于在所述样本数据中包含唤醒词的情况下，根据所述样本数据和所述第一语音唤醒模型，对第二语音唤醒模型进行训练，所述第二语音唤醒模型位于终端。

12、在一种可能的实现方式中，所述第二语音唤醒模型训练模块，还用于：将所述样本数据输入至所述第二语音唤醒模型，得到所述第二语音唤醒模型输出的第二概率分布；根据距离损失函数，对所述第二语音唤醒模型的参数进行调整，使参数调整后的第二语音唤醒模型输出的第二概率分布靠近所述第一语音唤醒模型输出的第一概率分布；其中，所述距离损失函数用于确定所述第二概率分布相对于所述第一概率分布的损失。

13、在一种可能的实现方式中，所述装置还包括：总损失函数确定模块，用于所述样本数据中包含唤醒词的情况下，根据第一损失函数、第二损失函数、第三损失函数和所述距离损失函数，确定总损失函数；所述语音识别模型训练模块，还用于根据所述总损失函数，更新所述语音识别模型；所述第一语音唤醒模型训练模块，还用于根据所述总损失函数，更新所述第一语音唤醒模型；所述第二语音唤醒模型训练模块，还用于根据所述总损失函数，更新所述第二语音唤醒模型；其中，所述第一损失函数为所述语音识别模型的损失函数；所述第二损失函数为所述第一语音唤醒模型的损失函数；所述第三损失函数为所述第二语音唤醒模型的损失函数。

14、在一种可能的实现方式中，所述总损失函数确定模块，还用于：对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述距离损失函数进行加权求和，得到总损失函数。

15、根据本公开的另一方面，提供了一种唤醒装置，所述装置包括：接收模块，用于接收输入的语音；第二特征获取模块，用于在终端无法根据所述语音确定是否进行唤醒的情况下，将所述语音输入至云端的语音识别模型，得到所述语音识别模型的中间层输出的第二特征；第一唤醒模块，用于将所述第二特征输入至云端的第一语音唤醒模型，确定是否进行唤醒。

16、在一种可能的实现方式中，所述装置还包括第二唤醒模块，用于：在所述第二特征获取模块在终端无法根据所述语音确定是否进行唤醒的情况下，将所述语音输入至云端的语音识别模型，得到所述语音识别模型的中间层输出的第二特征之前，将所述语音输入至终端的第二语音唤醒模型，得到第一唤醒概率；若所述第一唤醒概率大于第一阈值，则对所述终端进行唤醒；若所述第一唤醒概率小于第二阈值，则不唤醒所述终端；若所述第一唤醒概率在所述第一阈值与所述第二阈值之间，则确定所述终端无法根据所述语音确定是否进行唤醒；其中，所述第一阈值大于所述第二阈值。

17、在一种可能的实现方式中，所述装置还包括语音识别模块，用于：在所述第一唤醒模块将所述第二特征输入至云端的第一语音唤醒模型，确定进行唤醒的情况下，将所述第二特征输入至所述语音识别模型的中间层之后的模块中，进行语音识别。

18、根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述模型训练方法或唤醒方法。

19、根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述模型训练方法或唤醒方法。

20、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述模型训练方法或唤醒方法。

21、本公开提供的模型训练方法，通过在样本数据中包含唤醒词的情况下，将语音识别模型的中间层输出的第一特征输入至第一语音唤醒模型，对第一语音唤醒模型进行训练；由于语音识别模型的特征提取能力比第一语音唤醒模型的特征提取能力更强，且语音识别模型提取出的特征可以包含语义信息，利用语音识别模型的中间层输出的特征对第一语音唤醒模型进行训练，可以提升第一语音唤醒模型的效果，提高第一语音唤醒模型的唤醒率，使第一语音唤醒模型的唤醒结果更加准确。

22、根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。