技术新讯 > 乐器声学设备的制造及制作,分析技术 > 数据处理方法、设备唤醒方法、电子设备及存储介质与流程 > 正文

数据处理方法、设备唤醒方法、电子设备及存储介质与流程

国知局
2024-06-21 11:27:27

本申请涉及语音处理，具体而言，本申请涉及一种数据处理方法、设备唤醒方法、电子设备及存储介质。

背景技术：

1、在一些涉及真实声音场景的语音处理技术中，例如语音唤醒技术等，需要从实际生活的各种声音中检测到目标语音。而性能较好的处理结果可以将易混淆的发音不被判断为目标语音。

2、考虑到语种、说话内容等因素的不确定和多变性，在各种声音中准确地检测到目标语音是非常困难的。常见的做法是构建一个大型的语音数据库，在这个语音数据库中比较每个语音和目标语音的相似度，从而可以将相似度最高的多个语音标为易混淆的发音，若将其加入到模型训练中，可提升模型区分易混淆发音的能力。

3、这样就需要一个大的空间对语音数据库进行存储，但即便使用再大的空间，对现实的覆盖也是不充分的，尤其是随着用户个性化需求的提升，越来越多的用户希望能够自定义语音唤醒词，那么不同的用户可能对应不同的目标语音，语音数据库无法满足对不同目标语音的易混淆发音的有效判别。

技术实现思路

1、本申请实施例的目的旨在能解决现实声音难以完全覆盖而无法正确区分目标语音的易混淆发音的技术问题。

2、根据本申请实施例的一个方面，提供了一种数据处理方法，该方法包括：

3、获取待处理语音对应的关键词音素序列；

4、通过相似发音序列生成器，基于关键词音素序列，确定关键词音素序列的相似音素序列；

5、基于相似音素序列，生成第一数据处理结果。

6、根据本申请实施例的一个方面，提供了另一种数据处理方法，该方法包括：

7、获取待处理序列；

8、通过指示模型，基于待处理序列，确定待处理序列中的目标序列；

9、基于目标序列，生成第二数据处理结果。

10、根据本申请实施例的一个方面，提供了一种设备唤醒方法，该方法包括：

11、接收用户输入的唤醒注册语音；

12、基于用户输入的唤醒注册语音，获取唤醒语音对应的唤醒检测模型；

13、使用获取的唤醒检测模型，对接收的待检测语音进行唤醒检测，并基于检测结果确认是否执行设备唤醒处理。

14、根据本申请实施例的另一个方面，提供了一种数据处理装置，该装置包括：

15、第一获取模块，用于获取待处理语音对应的关键词音素序列；

16、第一处理模块，用于通过相似发音序列生成器，基于关键词音素序列，确定关键词音素序列的相似音素序列；

17、第二处理模块，用于基于相似音素序列，生成第一数据处理结果。

18、根据本申请实施例的又一个方面，提供了另一种数据处理装置，该装置包括：

19、第二获取模块，用于获取待处理序列；

20、第三处理模块，用于通过指示模型，基于待处理序列，确定待处理序列中的目标序列；

21、第四处理模块，用于基于目标序列，生成第二数据处理结果。

22、根据本申请实施例的又一个方面，提供了一种设备唤醒装置，该装置包括：

23、接收模块，用于接收用户输入的唤醒注册语音；

24、模型获取模块，用于基于用户输入的唤醒注册语音，获取唤醒语音对应的唤醒检测模型；

25、检测模块，用于使用获取的唤醒检测模型，对接收的待检测语音进行唤醒检测，并基于检测结果确认是否执行设备唤醒处理。

26、根据本申请实施例的还一个方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上的计算机程序，该处理器执行计算机程序以实现本申请实施例提供的数据处理方法的步骤。

27、根据本申请实施例的还一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的数据处理方法的步骤。

28、根据本申请实施例的还一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的数据处理方法的步骤。

29、本申请实施例提供的数据处理方法、设备唤醒方法、电子设备及存储介质，待处理语音被转换成关键词音素序列，采用相似发音序列生成器，以序列生成的方式获得关键词音素序列对应的相似音素序列，从而得到待处理语音对应的第一数据处理结果，例如易混淆的发音等。通过这种生成的方式来替代大规模的语音数据库的搜索方式，用较小的模型，便可实现对现实生活中可能出现的声音进行有效覆盖，从而提升区分易混淆发音的能力。

技术特征：

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过相似发音序列生成器，基于所述关键词音素序列，确定所述关键词音素序列的相似音素序列，包括：

3.根据权利要求2所述的方法，其特征在于，基于确定出的第四音素候选，确定所述关键词音素序列的相似音素序列，包括：

4.根据权利要求2或3所述的方法，其特征在于，基于确定出的音素候选，确定所述关键词音素序列的相似音素序列，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述第一音素序列候选，确定所述关键词音素序列的相似音素序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述第一音素序列候选中各音素序列的第二候选概率，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述相似音素序列，生成第一数据处理结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述相似音素序列，确定所述相似音素序列中的代表性音素序列，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述相似音素序列，得到相似音素序列对应的指示信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述相似音素序列和所述关键词音素序列，生成所述相似音素序列的序列表示，包括：

11.根据权利要求10所述的方法，其特征在于，确定所述存在差异的音素之间的距离，包括：

12.根据权利要求7-11任一项所述的方法，其特征在于，还包括：

13.根据权利要求12所述的方法，其特征在于，所述预定损失函数包括以下至少一种：

14.根据权利要求12或13所述的方法，其特征在于，所述第一负样本检测模型通过相似发音序列生成器生成的相似音素序列候选集训练得到；和/或，

15.根据权利要求12-14任一项所述的方法，其特征在于，所述第一负样本检测模型和第二负样本检测模型的网络结构相同。

16.一种数据处理方法，其特征在于，包括：

17.一种设备唤醒方法，其特征在于，包括：

18.根据权利要求17所述的方法，其特征在于，所述基于用户输入的唤醒注册语音，获取所述唤醒语音对应的唤醒检测模型，包括：

19.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-18任一项所述方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-18任一项所述方法的步骤。

技术总结本申请实施例提供了一种数据处理方法、设备唤醒方法、电子设备及存储介质，该方法中，待处理语音被转换成关键词音素序列，采用相似发音序列生成器，以序列生成的方式获得关键词音素序列对应的相似音素序列，从而得到待处理语音对应的第一数据处理结果。通过这种生成的方式来替代大规模的语音数据库的搜索方式，用较小的模型，便可实现对现实生活中可能出现的声音进行有效覆盖，从而提升区分易混淆发音的能力。其中，由电子设备执行的上述数据处理方法可以使用人工智能模型来执行。技术研发人员：楼晓雁,张帆,孟祥锋,宋黎明受保护的技术使用者：北京三星通信技术研究有限公司技术研发日：技术公布日：2024/2/8