技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于拼音纠错的多重模型语音识别与指令召回方法及装置与流程 > 正文

基于拼音纠错的多重模型语音识别与指令召回方法及装置与流程

国知局
2024-06-21 10:39:13

本发明涉及语音识别，尤其涉及基于拼音纠错的多重模型语音识别与指令召回方法及装置。

背景技术：

1、语音识别是一种将人类语音转换为文本形式的技术。它可以将口述的语音内容转化为可以被机器理解和处理的文本信息，为人机交互、语音控制和自动化等领域提供了巨大的便利。

2、当今市场在进行语音识别的过程中，当语音数据存在英文时，使用通用的中文模型进行识别会导致识别结果不准确，而进行中文识别时仅仅使用单一的通用模型进行识别也会影响识别精度。另外识别过程中所形成的文本数据可能会出现错字问题，如果不进行纠错，可能会影响后续的处理。

技术实现思路

1、本发明的目的是为了至少解决现有技术的不足之一，提供基于拼音纠错的多重模型语音识别与指令召回方法及装置。

2、为了实现上述目的，本发明采用以下的技术方案：

3、具体的，提出基于拼音纠错的多重模型语音识别与指令召回方法，包括以下：

4、获取用户的语音数据；

5、对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；

6、对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；

7、对拼音纠错后的文本数据进行结果匹配，生成回复文本；

8、基于所述回复文本控制前端进行语音播报。

9、进一步，具体的，对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据，包括，

10、通过whisper模型对所述语音数据进行检测判断其中是否存在英文，

11、若存在英文则通过whisper模型对所述语音数据进行识别得到文本数据，

12、若不存在英文则分别通过paddle模型对所述语音数据识别得到第一结果，通过wenet模型对所述语音数据识别得到第二结果；

13、对所述第一结果以及第二结果进行置信度计算，选择置信度计算较优的结果作为识别得到的文本数据。

14、进一步，具体的，对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据，包括，

15、预构建频繁词汇表bias_words，所述频繁词汇表bias_words中包括收录的关键词汇，对所述文本数据中每个词语根据预建立的拼音词表进行转拼音，当任意词语命中到所述拼音词表时，对该词语进行匹配转换将所述文本数据中的多音字替换，得到拼音纠错后的文本数据；

16、进一步，具体的，对拼音纠错后的文本数据进行结果匹配，包括，

17、使用sbert挛生网络对拼音纠错后的文本数据进行匹配，然后按照识别分数及指令匹配的综合分数来选择结果，并通过三级置信度算法控制反馈的内容，之后通过对数智中心系统模块的指令集成对语音识别的结果并使用faiss向量数据库来保存数据进行向量化并匹配出结果。

18、进一步，具体的，基于所述回复文本控制前端进行语音播报，包括，

19、通过paddle模型的语音合成模块对所述回复文本进行语音合成得到合成结果，将所述合成结果上传至ftp文件服务器，并将对应的语音地址返回值前端进行播放。

20、本发明还提出基于拼音纠错的多重模型语音识别与指令召回装置，包括：

21、语音数据获取模块，用于获取用户的语音数据；

22、语音识别模块，用于对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；

23、拼音纠错模块，用于对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；

24、结果匹配模块，用于对拼音纠错后的文本数据进行结果匹配，生成回复文本；

25、语音播报模块，用于基于所述回复文本控制前端进行语音播报。

26、本发明还提出一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于拼音纠错的多重模型语音识别与指令召回方法的步骤。

27、本发明的有益效果为：

28、本发明提出基于拼音纠错的多重模型语音识别与指令召回方法，基于多重语音模型对用户的语音数据进行针对识别，在语音数据存在英文时，针对性的使用英文模型进行识别，在语音数据仅含中文时，通过两个中文识别模型进行共同识别并以计算置信度的方式得到优选结果，确保识别准确。在完成识别后还会进行拼音纠错，进一步保证语音识别的准确。

技术特征：

1.基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，包括以下：

2.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据，包括，

3.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据，包括，

4.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，对拼音纠错后的文本数据进行结果匹配，包括，

5.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，基于所述回复文本控制前端进行语音播报，包括，

6.基于拼音纠错的多重模型语音识别与指令召回装置，其特征在于，包括：

7.一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。

技术总结本发明涉及基于拼音纠错的多重模型语音识别与指令召回方法，包括以下：获取用户的语音数据；对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；对拼音纠错后的文本数据进行结果匹配，生成回复文本；基于所述回复文本控制前端进行语音播报。基于多重语音模型对用户的语音数据进行针对识别，在语音数据存在英文时，针对性的使用英文模型进行识别，在语音数据仅含中文时，通过两个中文识别模型进行共同识别并以计算置信度的方式得到优选结果，确保识别准确。在完成识别后还会进行拼音纠错，进一步保证语音识别的准确。技术研发人员：李豪,汤欣受保护的技术使用者：广东云林信息工程技术股份有限公司技术研发日：技术公布日：2024/1/15