技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及装置与流程 > 正文

语音识别方法及装置与流程

国知局
2024-06-21 11:44:21

本申请涉及但不限于计算机，尤其涉及一种语音识别方法及装置。

背景技术：

1、传统驾驶舱内，驾驶员需要通过触控方式与驾驶室内的各种电子设备进行交互，这种操作方式效率低下，且容易分散驾驶员的注意力，存在严重的安全隐患。基于此，智能座舱(intelligent cabin)的概念逐渐兴起。

2、智能座舱旨在集成多种互联网技术和人工智能技术，打造全新的车内一体化数字平台，为驾驶员提供智能体验，促进行车安全。在智能座舱技术中，一个强大的语音或命令识别系统是实现座舱智能化的关键。因此，如何提高智能座舱内语音识别的准确性，成为亟需解决的问题。

技术实现思路

1、有鉴于此，本申请至少提供一种语音识别方法及装置。

2、本申请的技术方案是这样实现的：

3、一方面，本申请提供一种数据处理方法，所述方法包括：

4、获取至少一个对象的待识别语音信息；

5、基于所述待识别语音信息的音频特征，确定所述至少一个对象中至少一个注册对象对应的识别文本信息，并确定所述音频特征对应的当前音区；其中，所述至少一个注册对象与至少一个注册音区具有对应关系；

6、基于所述至少一个注册对象中目标对象对应的注册音区与所述当前音区一致，确定所述目标对象对应的识别文本信息为目标文本信息，以基于所述目标文本信息执行相应的语音指令。

7、在一些实施例中，所述注册对象具有对应的优先级信息；

8、所述基于所述至少一个注册对象中目标对象对应的注册音区与所述当前音区一致，确定所述目标对象对应的识别文本信息为目标文本信息，包括：

9、基于所述优先级信息，将所述至少一个注册对象中具有最高优先级的注册对象确定为所述目标对象；

10、基于所述目标对象对应的注册音区与所述当前音区一致，确定所述目标对象对应的识别文本信息为所述目标文本信息。

11、在一些实施例中，所述方法还包括：

12、基于所述目标对象对应的注册音区与所述当前音区不一致，输出提示信息；

13、其中，所述提示信息用于提示将所述目标对象对应的注册音区更新为所述当前音区。

14、在一些实施例中，所述确定所述音频特征对应的当前音区，包括：

15、利用第一音区检测策略，确定所述音频特征对应的第一音区；将所述第一音区作为所述当前音区；

16、所述方法还包括：

17、基于所述目标对象对应的注册音区与所述当前音区不一致，利用第二音区检测策略，确定所述音频特征对应的第二音区；将所述当前音区更新为所述第二音区，以基于所述第二音区重新确定所述目标文本信息。

18、在一些实施例中，所述方法还包括：

19、基于所述目标对象对应的注册音区与所述当前音区不一致，基于所述注册对象对应的优先级信息，更新所述目标对象；

20、基于所述更新后的目标对象对应的注册音区与所述当前音区一致，确定所述更新后的目标对象对应的识别文本信息为目标文本信息。

21、在一些实施例中，所述获取至少一个对象的待识别语音信息之前，包括：

22、启用指定服务模式；其中，在所述指定服务模式下，基于所述至少一个注册对象与注册音区的对应关系，确定待识别语音信息中的目标文本信息。

23、在一些实施例中，所述基于所述待识别语音信息的音频特征，确定所述至少一个对象中至少一个注册对象对应的识别文本信息，包括：

24、基于注意力机制，对所述音频特征与至少一个注册语音特征进行融合，以生成融合语音特征；其中，所述注册语音特征为对应的注册对象注册的语音特征；

25、基于所述融合语音特征，确定所述至少一个对象中所述至少一个注册对象对应的识别文本信息。

26、在一些实施例中，所述基于注意力机制，对所述音频特征与至少一个注册语音特征进行融合，以生成融合语音特征，包括：

27、基于所述音频特征和所述至少一个注册语音特征，确定注意力权重矩阵；

28、基于所述注意力权重矩阵与所述至少一个注册语音特征，生成所述融合语音特征。

29、在一些实施例中，所述至少一个注册对象包括第一注册对象；

30、所述获取至少一个对象的待识别语音信息之前，所述方法还包括：

31、获取所述第一注册对象的第一语音特征，并将所述第一语音特征确定为所述第一注册对象的注册语音特征；

32、响应于用户操作，确定与所述第一注册对象具有对应关系的注册音区。

33、另一方面，本申请还提供一种语音识别装置，包括：

34、获取模块，用于获取至少一个对象的待识别语音信息；

35、第一确定模块，用于基于所述待识别语音信息的音频特征，确定所述至少一个对象中至少一个注册对象对应的识别文本信息，并确定所述音频特征对应的当前音区；其中，所述至少一个注册对象与至少一个注册音区具有对应关系；

36、第二确定模块，用于基于所述至少一个注册对象中目标对象对应的注册音区与所述当前音区一致，确定所述目标对象对应的识别文本信息为目标文本信息，并基于所述目标文本信息执行相应的语音指令。

37、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

技术特征：

1.一种语音识别方法，包括：

2.根据权利要求1所述的方法，其中，所述注册对象具有对应的优先级信息；

3.根据权利要求2所述的方法，还包括：

4.根据权利要求2所述的方法，其中，所述确定所述音频特征对应的当前音区，包括：

5.根据权利要求2所述的方法，还包括：

6.根据权利要求1所述的方法，其中，所述获取至少一个对象的待识别语音信息之前，包括：

7.根据权利要求1所述的方法，其中，所述基于所述待识别语音信息的音频特征，确定所述至少一个对象中至少一个注册对象对应的识别文本信息，包括：

8.根据权利要求7所述的方法，其中，所述基于注意力机制，对所述音频特征与至少一个注册语音特征进行融合，以生成融合语音特征，包括：

9.根据权利要求7所述的方法，其中，所述至少一个注册对象包括第一注册对象；

10.一种语音识别装置，包括：

技术总结本申请公开了一种语音识别方法及装置，其中，所述方法包括：获取至少一个对象的待识别语音信息；基于所述待识别语音信息的音频特征，确定所述至少一个对象中至少一个注册对象对应的识别文本信息，并确定所述音频特征对应的当前音区；其中，所述至少一个注册对象与至少一个注册音区具有对应关系；基于所述至少一个注册对象中目标对象对应的注册音区与所述当前音区一致，确定所述目标对象对应的识别文本信息为目标文本信息，以基于所述目标文本信息执行相应的语音指令。技术研发人员：贾彦,洪密受保护的技术使用者：联想（北京）有限公司技术研发日：技术公布日：2024/4/17