技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音唤醒模型的训练方法、装置、设备及存储介质与流程 > 正文

语音唤醒模型的训练方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:33:20

本申请涉及语音交互，尤其涉及一种语音唤醒模型的训练方法、装置、电子设备及存储介质。

背景技术：

1、语音交互技术当前已经广泛应用在各种智能设备中，语音唤醒作为语音交互入口对于用户整个语音交互体验影响非常大。自定义唤醒功能通常在端侧进行部署，事先存放好通用语音唤醒模型，用户在注册阶段输入自己想要的唤醒词文本，生成对应解码网络，生效用户自定义唤醒词，然后在使用过程中根据所设置的唤醒词文本进行语音唤醒。

2、目前，由于用户需要的唤醒词多种多样，因此在进行唤醒时通常使用通用唤醒模型或者定制唤醒模型进行唤醒词检测，其中，定制唤醒模型的唤醒效果要好于通用唤醒模型，但定制周期偏长(通常为2个月)且长于通用唤醒模型，使得在进行自定义定制时都存在各自问题。同时，无论是通用唤醒模型还是定制唤醒唤醒模型，都是针对唤醒词文本的处理，而忽略了用户的实际使用场景，导致唤醒效果较差，影响用户体验。

技术实现思路

1、本申请实施例的目的是提供一种语音唤醒模型的训练方法、装置、电子设备及存储介质，以解决相关技术中语音唤醒时因未考虑具体场景而使得唤醒效果差的技术问题。

2、第一方面，本申请实施例提供了一种语音唤醒模型的训练方法，包括：

3、接收上传的唤醒词文本和场景提示；

4、利用生成式大模型对所述唤醒词文本和场景提示进行处理，得到所述场景提示对应的训练数据，其中，所述训练数据包括训练样本和测试样本；

5、根据所述训练样本对通用唤醒模型进行训练，得到语音唤醒模型，并根据所述测试样本对所述语音唤醒模型进行测试；

6、在根据所述测试样本确定所述语音唤醒模型测试通过的情况下，将所述语音唤醒模型下发至目标终端进行配置。

7、第二方面，本申请实施例提供了一种语音唤醒模型的训练装置，包括：

8、数据接收模块，用于接收上传的唤醒词文本和场景提示；

9、数据处理模块，用于利用生成式大模型对所述唤醒词文本和场景提示进行处理，得到所述场景提示对应的训练数据，其中，所述训练数据包括训练样本和测试样本；

10、模型训练模块，用于根据所述训练样本对通用唤醒模型进行训练，得到语音唤醒模型，并根据所述测试样本对所述语音唤醒模型进行测试；

11、模型输出模块，用于在根据所述测试样本确定所述语音唤醒模型测试通过的情况下，将所述语音唤醒模型下发至目标终端进行配置。

12、第三方面，本申请实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的语音唤醒模型的训练方法中的步骤。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的语音唤醒模型的训练方法中的步骤。

14、本申请实施例提供了一种语音唤醒模型的训练方法、装置、电子设备及存储介质，在进行自定义的语音唤醒模型的训练时，预先定义好唤醒词文本和场景提示，然后利用生成式大模型对唤醒词文本和场景提示进行处理，得到用于模型训练的训练数据，然后利用训练数据对通用唤醒模型进行训练和测试，进而在测试通过时将训练得到的语音唤醒模型作为数据下发至目标终端进行配置。实现了在训练过程中，以通用唤醒模型为基础进行训练，可以有效的提高训练效率，并且将场景信息作为训练基础，提高语音唤醒模型对场景的适应性，进而提高了唤醒效果。

技术特征：

1.一种语音唤醒模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述利用生成式大模型对所述唤醒词文本和场景提示进行处理，得到所述场景提示对应的训练数据，包括：

3.如权利要求2所述的方法，其特征在于，所述利用生成式大模型对所述唤醒词文本和所述场景特征进行组合，并进行语音转换将得到的音频数据作为所述场景提示对应的训练数据，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述测试样本对所述语音唤醒模型进行测试，包括：

5.如权利要求4所述的方法，其特征在于，所述根据得到的比较结果确定所述语音唤醒模型是否测试通过，包括：

6.如权利要求2所述的方法，其特征在于，所述根据所述测试样本对所述语音唤醒模型进行测试之后，还包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述测试结果对所述训练数据进行数据筛选，得到新的训练数据，包括：

8.一种语音唤醒模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法中的步骤。

技术总结本申请公开了一种语音唤醒模型的训练方法、装置、电子设备及存储介质，该方法包括：接收上传的唤醒词文本和场景提示；利用生成式大模型对唤醒词文本和场景提示进行处理，得到场景提示对应的训练数据，其中，训练数据包括训练样本和测试样本；根据训练样本对通用唤醒模型进行训练，得到语音唤醒模型，并根据测试样本对语音唤醒模型进行测试；在根据测试样本确定语音唤醒模型测试通过的情况下，将语音唤醒模型下发至目标终端进行配置。实现了在训练过程中，以通用唤醒模型为基础进行训练，可以有效的提高训练效率，并且将场景信息作为训练基础，提高语音唤醒模型对场景的适应性，进而提高了唤醒效果。技术研发人员：常镶石,田垚,单煜翔受保护的技术使用者：北京欧珀通信有限公司技术研发日：技术公布日：2024/3/11