技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音唤醒设备的唤醒方法、装置、电子设备及存储介质与流程 > 正文

语音唤醒设备的唤醒方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:55:48

本发明涉及智能设备，尤其涉及语音唤醒设备的唤醒方法、装置、电子设备及存储介质。

背景技术：

1、在实际生活中，每个用户的声波是不一样的，特别是不同的地区之间的声波的差异性更高。因此，对语音唤醒设备设置同一个唤醒阈值会导致唤醒率与误唤醒率失衡，进而使用户对语音唤醒设备的唤醒效果不佳。因此，语音唤醒设备的唤醒方法仍需改善。

技术实现思路

1、本发明要解决的技术问题是为了克服现有技术中语音唤醒设备设置同一个唤醒阈值会导致唤醒率和误唤醒率失衡，进而使用户对语音唤醒设备的唤醒效果不佳的缺陷，提供一种语音唤醒设备的唤醒方法、装置、电子设备及存储介质。

2、本发明是通过下述技术方案来解决上述技术问题：

3、第一方面，提供一种语音唤醒设备的唤醒方法，所述唤醒方法包括：

4、获取所述语音唤醒设备的预设范围内的音频数据和与所述音频数据对应的环境图像数据；

5、计算所述音频数据与所述语音唤醒设备的预设唤醒音频数据的第一匹配度；

6、根据第一对应关系，确定与所述音频数据的匹配度最高的口音音频数据的目标口音数值；其中，所述第一对应关系表征各个地区的口音音频数据和所述各个地区的口音音频数据与所述预设唤醒音频数据的第二匹配度的对应关系；所述目标口音数值表征对所述语音唤醒设备的唤醒率的影响程度，所述目标口音数值根据所述第二匹配度确定；

7、提取所述环境图像数据中的唇语信息，根据第二对应关系，确定与所述唇语信息的匹配度最高的唤醒词唇语的目标唇语数值；其中，所述第二对应关系表征不同地区的唤醒词唇语和所述不同地区的唤醒词唇语与预设唤醒词唇语的第三匹配度的对应关系；所述目标唇语数值表征对所述语音唤醒设备的唤醒率的影响程度，所述目标唇语数值根据所述第三匹配度确定；

8、根据所述目标口音数值和所述目标唇语数值，确定唤醒阈值；

9、根据所述第一匹配度和所述唤醒阈值，确定是否唤醒所述语音唤醒设备。

10、可选地，所述根据第一对应关系，确定与所述音频数据的匹配度最高的口音音频数据的目标口音数值，包括：

11、计算所述音频数据与各个地区的口音音频数据的第四匹配度；

12、将所述第四匹配度中的最大值对应的口音音频数据，确定为目标口音音频数据；

13、在所述第一对应关系中查找所述目标口音音频数据对应的第二匹配度，以确定所述目标口音数值；其中，所述目标口音数值与所述目标口音音频数据对应的第二匹配度呈正相关。

14、可选地，所述根据第二对应关系，确定与所述唇语信息的匹配度最高的唤醒词唇语的目标唇语数值，包括：

15、将所述第三匹配度中的最大值对应的唤醒词唇语所属的地区，确定为目标唇语地区；

16、将所述第四匹配度中的最大值对应的口音音频数据所属的地区，确定为目标音频地区；

17、根据所述目标唇语地区与所述目标音频地区，确定所述目标唇语数值。

18、可选地，所述根据所述目标唇语地区与所述目标音频地区，确定所述目标唇语数值，包括：

19、获取所述语音唤醒设备的预设唇语数值；

20、当所述目标音频地区与所述目标唇语地区相同时，则使用第一预设系数调整预设唇语数值，以得到目标唇语数值；

21、当所述目标音频地区与所述目标唇语地区不同时，则将预设唇语数值作为所述目标唇语数值。

22、可选地，所述唤醒方法，还包括：

23、将所述环境图像数据输入唇语识别模型，以由所述唇语识别模型判断所述语音唤醒设备的预设范围内是否有用户说话；

24、若有用户说话，则使用第二预设系数调整所述目标唇语数值，以使所述目标唇语数值增大；

25、若无用户说话，则使用第三预设系数调整所述目标唇语数值，以使所述目标唇语数值减小；

26、其中，所述第三预设系数小于所述第二预设系数。

27、可选地，所述将所述环境图像数据输入唇语识别模型，以由所述唇语识别模型判断所述语音唤醒设备的预设范围内是否有用户说话，包括：

28、当所述唇语识别模型识别出所述环境图像数据中无用户，则判定所述预设范围内无人说话；

29、和/或，

30、当所述唇语识别模型识别出所述环境图像数据中有用户且用户唇部未发生变化或者用户的唇部特征与所述预设唤醒词的标准地区唇语特征的匹配度低于匹配度阈值，则判定所述预设范围内无人说话；

31、和/或，

32、当所述唇语识别模型识别出所述环境图像数据中有用户且用户唇部特征与所述预设唤醒词的标准地区唇语特征的匹配度高于等于匹配度阈值，则判定所述预设范围内有人说话。

33、可选地，所述根据所述目标口音数值和所述目标唇语数值，确定唤醒阈值，包括：

34、根据语音唤醒设备的工况确定初始唤醒阈值；

35、将所述初始唤醒阈值、所述目标口音数值和所述目标唇语数值的加权结果，确定为所述唤醒阈值。

36、第二方面，提供一种语音唤醒设备的唤醒装置，所述唤醒装置包括：

37、获取模块，用于获取所述语音唤醒设备的预设范围内的音频数据和与所述音频数据对应的环境图像数据；

38、计算模块，用于计算所述音频数据与所述语音唤醒设备的预设唤醒音频数据的第一匹配度；

39、第一确定模块，用于根据第一对应关系，确定与所述音频数据的匹配度最高的口音音频数据的目标口音数值；其中，所述第一对应关系表征各个地区的口音音频数据和所述各个地区的口音音频数据与所述预设唤醒音频数据的第二匹配度的对应关系；所述目标口音数值表征对所述语音唤醒设备的唤醒率的影响程度，所述目标口音数值根据所述第二匹配度确定；

40、提取模块，用于提取所述环境图像数据中的唇语信息，根据第二对应关系，确定与所述唇语信息的匹配度最高的唤醒词唇语的目标唇语数值；其中，所述第二对应关系表征不同地区的唤醒词唇语和所述不同地区的唤醒词唇语与预设唤醒词唇语的第三匹配度的对应关系；所述目标唇语数值表征对所述语音唤醒设备的唤醒率的影响程度，所述目标唇语数值根据所述第三匹配度确定；

41、第二确定模块，用于根据所述目标口音数值和所述目标唇语数值，确定唤醒阈值；

42、第三确定模块，用于根据所述第一匹配度和所述唤醒阈值，确定是否唤醒所述语音唤醒设备。

43、可选地，所述第一确定模块包括：

44、计算单元，用于计算所述音频数据与各个地区的口音音频数据的第四匹配度；

45、第一确定单元，用于将所述第四匹配度中的最大值对应的口音音频数据，确定为目标口音音频数据；

46、第二确定单元，用于在所述第一对应关系中查找所述目标口音音频数据对应的第二匹配度，以确定所述目标口音数值；其中，所述目标口音数值与所述目标口音音频数据对应的第二匹配度呈正相关。

47、可选地，所述提取模块包括：

48、第三确定单元，用于将所述第三匹配度中的最大值对应的唤醒词唇语所属的地区，确定为目标唇语地区；

49、第四确定单元，用于将所述第四匹配度中的最大值对应的口音音频数据所属的地区，确定为目标音频地区；

50、第五确定单元，用于根据所述目标唇语地区与所述目标音频地区，确定所述目标唇语数值。

51、可选地，所述提取模块还包括：

52、获取单元，用于获取所述语音唤醒设备的预设唇语数值；

53、调整单元，用于当所述目标音频地区与所述目标唇语地区相同时，则使用第一预设系数调整预设唇语数值，以得到目标唇语数值；

54、作为单元，用于当所述目标音频地区与所述目标唇语地区不同时，则将预设唇语数值作为所述目标唇语数值。

55、可选地，所述唤醒装置还包括：

56、判断模块，用于将所述环境图像数据输入唇语识别模型，以由所述唇语识别模型判断所述语音唤醒设备的预设范围内是否有用户说话；

57、第一调整模块，用于若有用户说话，则使用第二预设系数调整所述目标唇语数值，以使所述目标唇语数值增大；

58、第二调整模块，用于若无用户说话，则使用第三预设系数调整所述目标唇语数值，以使所述目标唇语数值减小；

59、其中，所述第三预设系数小于所述第二预设系数。

60、可选地，所述判断模块包括：

61、第一判定单元，用于当所述唇语识别模型识别出所述环境图像数据中无用户，则判定所述预设范围内无人说话；

62、和/或，

63、第二判定单元，用于当所述唇语识别模型识别出所述环境图像数据中有用户且用户唇部未发生变化或者用户的唇部特征与所述预设唤醒词的标准地区唇语特征的匹配度低于匹配度阈值，则判定所述预设范围内无人说话；

64、和/或，

65、第三判定单元，用于当所述唇语识别模型识别出所述环境图像数据中有用户且用户唇部特征与所述预设唤醒词的标准地区唇语特征的匹配度高于等于匹配度阈值，则判定所述预设范围内有人说话。

66、可选地，所述第一确定模块包括：

67、第六确定单元，用于根据语音唤醒设备的工况确定初始唤醒阈值；

68、第七确定单元，用于将所述初始唤醒阈值、所述目标口音数值和所述目标唇语数值的加权结果，确定为所述唤醒阈值。

69、第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述的语音唤醒设备的唤醒方法。

70、第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的语音唤醒设备的唤醒方法。

71、本发明的积极进步效果在于:本发明根据表征用户口音的目标口音数值和表征用户唇语的目标唇语数值，动态确定唤醒阈值，进而唤醒设备，使语音唤醒设备的适用人群更广。此外，使用目标口音数值和目标唇语数值两个数值确定唤醒阈值，可以很好地调节语音唤醒设备的唤醒率和误唤醒率的平衡关系，进而使用户对语音唤醒设备的唤醒体验更佳。