技术新讯 > 乐器声学设备的制造及制作,分析技术 > 指令语音识别方法、装置、设备及存储介质与流程 > 正文

指令语音识别方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:32:28

本申请涉及人工智能技术，尤其涉及一种指令语音识别方法、装置、设备及存储介质。

背景技术：

1、随着人工智能算法的持续发展，越来越多的端侧设备通过配置语音识别算法来解决在不方便使用键盘或鼠标等传统输入设备场景下的人机交互问题。指令语音识别是语音识别场景之一，端侧设备只需要识别出指令对应的文本，就可响应于用户发出的指令。

2、现有技术中，指令语音识别采用与其它场景语音识别相同的方法，在提取到语音的特征向量后，在字典中搜索对应的文字，进而得到识别结果。在环境嘈杂、噪音过大或者语音信号较弱时，非指令文字会对识别结果造成影响，导致指令识别的错误率高。并且，每次识别时，都需要在字典中搜索所有可能的文字序列，导致识别的效率低。

技术实现思路

1、本申请提供一种指令语音识别方法、装置、设备及存储介质，用以解决现有技术中非指令文字对指令语音识别结果造成影响，进而导致指令语音识别的错误率高和效率低的问题。

2、根据本申请的第一方面，提供一种指令语音识别方法，包括：

3、获取指令语音经过声学特征提取后的初始指令文本向量；所述初始指令文本向量包括指令语音对应的指令文本中各孤立文字的初始向量；

4、获取预设指令集对应的目标向量集；所述目标向量集由预设指令集中各孤立文字在预设字典中对应的词向量组成；

5、采用预设掩码值对所述初始指令文本向量中不属于目标向量集的初始向量进行掩码操作，以获得目标指令文本向量；

6、将目标指令文本向量转换为目标指令文本，以识别出指令语音对应的目标指令。

7、根据本申请的第二方面，提供一种指令语音识别装置，包括：

8、第一获取模块，用于获取指令语音经过声学特征提取后的初始指令文本向量；所述初始指令文本向量包括指令文本中各孤立文字的初始向量；

9、第二获取模块，用于获取预设指令集对应的目标向量集；所述目标向量集由预设指令集中各孤立文字在预设字典中对应的词向量组成；

10、掩码模块，用于采用预设掩码值对所述初始指令文本向量中不属于目标向量集的初始向量进行掩码操作，以获得目标指令文本向量；

11、转换模块，用于将目标指令文本向量转换为目标指令文本，以识别出指令语音对应的目标指令。

12、根据本申请的第三方面，提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

13、所述存储器存储计算机执行指令；

14、所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面中所述的方法。

15、根据本申请的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面中所述的方法。

16、本申请提供的指令语音识别方法、装置、设备及存储介质，通过获取指令语音经过声学特征提取后的初始指令文本向量；所述初始指令文本向量包括指令文本中各孤立文字的初始向量；获取预设指令集对应的目标向量集；所述目标向量集由预设指令集中各孤立文字在预设字典中对应的词向量组成；采用预设掩码值对所述初始指令文本向量中不属于目标向量集的初始向量进行掩码操作，以获得目标指令文本向量；将目标指令文本向量转换为目标指令文本，以识别出指令语音对应的目标指令；由于目标向量集由预设指令集中各孤立文字在预设字典中对应的词向量组成，因此，采用预设掩码值对初始指令文本向量中不属于目标向量集的初始向量进行掩码操作，就能够掩盖初始指令文本中所有不在预设指令集中文字的初始向量，在将目标指令文本向量转换为目标指令文本的过程中，就只有未被掩盖的初始向量能够影响语音识别结果，避免非指令文字对识别结果的影响，同时，能够降低再字典中搜索指令文本向量对应的所有候选文字序列过程的复杂度，进而，能够提高指令识别的正确率和效率。

技术特征：

1.一种指令语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用预设掩码值对所述初始指令文本向量中不属于目标向量集的初始向量进行掩码操作，以获得目标指令文本向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取预设指令集对应的目标向量集之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述获取指令语音经过声学特征提取后的初始指令文本向量之后，还包括：

5.根据权利要求4所述的方法，其特征在于，判断所述指令语音中的指令数量是否大于一条，包括：

6.根据权利要求5所述的方法，其特征在于，若确定所述初始向量存在停顿特征，则还包括：

7.根据权利要求4所述的方法，其特征在于，所述根据至少一个断句标识将所述目标指令文本向量转换为至少两条目标指令文本，以识别出指令语音对应的至少两条目标指令，包括：

8.一种指令语音识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法。

技术总结本申请提供一种指令语音识别方法、装置、设备及存储介质。该方法包括：获取指令语音经过声学特征提取后的初始指令文本向量；初始指令文本向量包括指令语音对应的指令文本中各孤立文字的初始向量；获取预设指令集对应的目标向量集；目标向量集由预设指令集中各孤立文字在预设字典中对应的词向量组成；采用预设掩码值对初始指令文本向量中不属于目标向量集的初始向量进行掩码操作，以获得目标指令文本向量；将目标指令文本向量转换为目标指令文本，以识别出指令语音对应的目标指令。本申请的方案，提高了指令识别的正确率和效率。技术研发人员：曹亮,徐绍君,李燮受保护的技术使用者：成都鼎桥通信技术有限公司技术研发日：技术公布日：2024/3/4