技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音免唤醒方法、装置、计算机设备及存储介质与流程 > 正文

语音免唤醒方法、装置、计算机设备及存储介质与流程

国知局
2024-06-21 11:54:53

本发明涉及语音识别和图像识别，具体涉及语音免唤醒方法、装置、计算机设备及存储介质。

背景技术：

1、随着人工智能和语音识别技术的快速发展，越来越多的智能设备开始支持语音控制。然而，在实际使用中，往往需要不断地下达指令来唤醒设备，这在一定程度上降低了用户的使用体验。为了解决这个问题，近年来出现了一种新的技术——语音免唤醒技术。

2、现在主流的语音免唤醒技术是基于图像和语音融合的免唤醒技术。通过获取多人的唇动信息，确定唇动人员，结合语音信息判断唇动人员是否发声，若发声则确认为发声人员，识别发声人的指令，实现免唤醒。或者，根据嘴部动作判断是否有交互意图，在结合语义意图，判断是否唤醒设备。或者，通过语音+有效指向特征(比如指向动作)判断意图，实现免唤醒。

3、现有的语音免唤醒技术基本上是综合语音、视线、唇动中的几种或者全部模态视线免唤醒，都缺少用户的身份验证，这意味着任何人都可以使用该控制设备，安全性低。

技术实现思路

1、有鉴于此，本发明提供了一种语音免唤醒方法、装置、计算机设备及存储介质，以解决现有的语音免唤醒技术安全性低的问题。

2、第一方面，本发明提供了一种语音免唤醒方法，所述方法包括：

3、获取当前用户的有效语音数据和有效图像数据；

4、获取所述有效图像数据中的唇部数据和人脸数据；

5、利用声纹识别模型识别所述有效语音数据中的说话人数据；

6、基于所述唇部数据、人脸数据和说话人数据对所述当前用户的身份进行验证；

7、在所述当前用户身份验证通过的情况下，识别所述有效语音数据中的用户意图；

8、执行所述用户意图对应的操作。

9、本发明实施例提供了一种语音免唤醒方法，通过在身份验证通过时，进入语音免唤醒模式，执行对应的操作以达到实现语音唤醒的同时提高设备使用的安全性的效果。

10、在一种可选的实施方式中，所述基于所述唇部数据、人脸数据和说话人数据对所述当前用户的身份进行验证，包括：

11、将所述唇部数据、人脸数据和说话人数据输入身份验证模型，获得当前用户的身份信息；

12、通过判断所述当前用户的身份信息与预设用户的身份信息是否相同，来对所述当前用户的身份进行验证，其中，所述当前用户的身份信息与预设用户的身份信息相同，则所述当前用户身份验证通过。

13、本实施例提供的语音免唤醒方法，通过在唇部和语音数据的基础上，引入了人脸信息和声纹信息两重验证信息来进行身份验证，在不增加外围设备和数据的情况下，实现了语音免唤醒的同时，增加了身份验证功能。进一步地，提高了用户人机交互体验感的同时，也保障了设备的安全和用户的隐私。

14、在一种可选的实施方式中，所述识别所述有效语音数据中的用户意图，包括：

15、将所述有效语音数据转换为文本数据；

16、将所述文本数据输入意图理解模型，获取所述用户意图。

17、本实施例提供的语音免唤醒方法，可以支持用户的口语化表述，使语音操作更贴近用户自然行为。

18、在一种可选的实施方式中，所述获取当前用户的有效语音数据和有效图像数据，包括：

19、利用摄像头采集当前用户的图像数据；

20、利用麦克风采集当前用户的语音数据；

21、将所述语音数据输入到vad模型中进行识别，获得有效语音数据的起止时间；

22、基于所述有效语音数据的起止时间，获取所述当前用户的有效语音数据和有效图像数据。

23、本发明实施例提供了一种语音免唤醒方法，通过在身份验证通过时，进入语音免唤醒模式，执行对应的操作以达到实现语音唤醒的同时提高设备使用的安全性的效果。

24、在一种可选的实施方式中，所述将所述有效语音数据转换为文本数据，包括：

25、通过语音识别技术对所述有效语音数据进行实时识别，将实时识别出的文本与在前识别出的文本进行融合处理，获得所述文本数据。

26、本实施例提供的语音免唤醒方法，可以支持用户的口语化表述，使语音操作更贴近用户自然行为。

27、在一种可选的实施方式中，所述获取所述有效图像数据中的唇部数据和人脸数据，包括：

28、利用人脸检测技术检测所述有效图像数据中的人脸候选区域；

29、获取所述人脸候选区域中唇部关键点的位置坐标；

30、获取所述人脸候选区域中的人脸特征。

31、本实施例提供的语音免唤醒方法，通过在唇部和语音数据的基础上，引入了人脸信息和声纹信息两重验证信息来进行身份验证，在不增加外围设备和数据的情况下，实现了语音免唤醒的同时，增加了身份验证功能。

32、在一种可选的实施方式中，所述方法还包括：

33、将所述人脸候选区域中的人脸特征与预设用户的人脸特征进行匹配，获取第一匹配结果；

34、将所述说话人数据与预设用户的说话人数据进行匹配，获得第二匹配结果；

35、所述将所述唇部数据、人脸数据和说话人数据输入身份验证模型，获得当前用户的身份信息，包括：

36、将所述唇部数据、人脸数据、说话人数据、第一匹配结果和第二匹配结果输入身份验证模型，获得当前用户的身份信息。

37、本实施例提供的语音免唤醒方法，通过在唇部和语音数据的基础上，引入了人脸信息和声纹信息两重验证信息来进行身份验证，且在基于人脸信息和声纹信息获得身份验证的结果后，将该身份验证的结果、唇部数据、人脸数据、声纹数据输入身份验证模型，进一步确认当前用户的身份，提高了身份验证的准确性，也保障了设备安全和用户的隐私。

38、第二方面，本发明提供了一种语音免唤醒装置，所述装置包括：

39、第一数据获取模块，用于获取当前用户的有效语音数据和有效图像数据；

40、第二数据获取模块，用于获取所述有效图像数据中的唇部数据和人脸数据；

41、数据识别模块，用于利用声纹识别模型识别所述有效语音数据中的说话人数据；

42、身份验证模块，用于基于所述唇部数据、人脸数据和说话人数据对所述当前用户的身份进行验证；

43、意图识别模块，用于在所述当前用户身份验证通过的情况下，识别所述有效语音数据中的用户意图；

44、操作执行模块，用于执行所述用户意图对应的操作。

45、第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的语音免唤醒方法。

46、第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语音免唤醒方法。

技术特征：

1.一种语音免唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述唇部数据、人脸数据和说话人数据对所述当前用户的身份进行验证，包括：

3.根据权利要求1所述的方法，其特征在于，所述识别所述有效语音数据中的用户意图，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取当前用户的有效语音数据和有效图像数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述有效语音数据转换为文本数据，包括：

6.根据权利要求2所述的方法，其特征在于，所述获取所述有效图像数据中的唇部数据和人脸数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种语音免唤醒装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的语音免唤醒方法。

技术总结本发明涉及语音识别和图像识别技术领域，公开了语音免唤醒方法、装置、计算机设备及存储介质，所述方法包括：获取当前用户的有效语音数据和有效图像数据；获取有效图像数据中的唇部数据和人脸数据；利用声纹识别模型识别有效语音数据中的说话人数据；基于唇部数据、人脸数据和说话人数据对当前用户的身份进行验证；在当前用户身份验证通过的情况下，识别有效语音数据中的用户意图；执行用户意图对应的操作。本发明通过在身份验证通过时，进入语音免唤醒模式，执行对应的操作，在实现语音免唤醒的同时提高了设备使用的安全性。技术研发人员：史元春,张晓川,陶品,兴军亮,汪贤龙受保护的技术使用者：启元实验室技术研发日：技术公布日：2024/5/29