技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、装置、设备及存储介质与流程 > 正文

一种语音识别方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:33:34

本技术涉及语音识别，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

1、随着科学技术的不断进步，语音识别技术在日常生活中的应用越来越广泛。但是，由于各种原因，如噪声、口音、语速和方言等因素的影响，语音识别的准确率并不高。现有技术的语音识别方案采用声学模型改进、语言模型优化、特征提取优化和在线离线定制识别等方法提高语音识别的准确率。但是，现有技术的语音识别方案存在一定的局限性，需要依赖热词上传和语音识别定制，且对低频词汇的识别不够准确。

技术实现思路

1、有鉴于此，本技术实施例提供一种语音识别方法、装置、设备及存储介质。

2、本技术实施例的技术方案是这样实现的：

3、第一方面，本技术实施例提供一种语音识别方法，包括：获取用户输入的语音文件所对应的第一文本；在用户输入所述语音文件时获取前台应用的界面图像上的第二文本；将所述第一文本转换为第一拼音字符串，以及将所述第二文本转换为第二拼音字符串；在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的情况下，将所述第一文本中与所述相同字符串对应的文本替换为所述第二文本中与所述相同字符串对应的文本，得到校正后的第一文本；将所述校正后的第一文本确定为所述语音文件的输出文本。

4、通过采取本技术的技术方案，首先，获取用户输入的语音文件所对应的第一文本，并在用户输入语音文件时获取前台应用的界面图像上的第二文本；其次，将第一文本转换为第一拼音字符串，以及将第二文本转换为第二拼音字符串；然后，在第一拼音字符串和第二拼音字符串存在相同字符串的情况下，将第一文本中与相同字符串对应的文本替换为第二文本中与相同字符串对应的文本，得到校正后的第一文本，这里通过将第一文本中与相同字符串对应的文本替换为第二文本中与相同字符串对应的文本，实现对第一文本的校正；最后，将校正后的第一文本确定为语音文件的输出文本，这样，得到了校正后的语音文件的输出文本。通过本技术方案，在不依赖热词上传和语音识别定制的情况下，实现了对输入的语音文件对应的第一文本的校正，从而可以提高对低频词汇的识别率，进而提高了语音识别的准确率。

5、在一些实施例中，所述的语音识别方法还包括：在所述第一拼音字符串和所述第二拼音字符串不存在相同字符串的情况下，将所述第一文本确定为所述语音文件的输出文本。

6、根据上述技术手段，在第一拼音字符串和第二拼音字符串不存在相同字符串的情况下，无需对第一文本进行校正，直接将第一文本确定为语音文件的输出文本,并下发至语音助手软件中，实现相关功能即可。

7、在一些实施例中，所述前台应用包括至少一个，所述在用户输入所述语音文件时获取前台应用的界面图像上的第二文本，包括：获取至少一个所述前台应用的业务服务类型，以及所述语音文件的业务服务类型；从至少一个所述前台应用中，将与所述语音文件的业务服务类型相同的前台应用，确定为目标前台应用；将所述目标前台应用的已展示界面上的文本确定为所述第二文本。

8、根据上述技术手段，首先，获取至少一个前台应用的业务服务类型，以及语音文件的业务服务类型，这样，方便后续判断前台应用和语音文件的业务服务类型是否相同；其次，从至少一个前台应用中，将与语音文件的业务服务类型相同的前台应用，确定为目标前台应用，这样，将与用户输入的语音文件业务服务类型相同的目标前台应用筛选出来，方便后续对目标前台应用的已展示界面图像进行截取；最后，将目标前台应用的已展示界面上的文本确定为第二文本。通过本技术方案，将与语音文件的业务服务类型相同的前台应用的已展示界面上的文本转换为第二文本，作为后续对用户输入的语音文件对应的第一文本进行校正的依据。

9、在一些实施例中，所述将所述目标前台应用的已展示界面上的文本确定为所述第二文本，包括：确定用户输入所述语音文件的输入时间段；基于所述输入时间段，确定目标前台应用的界面图像；基于所述目标前台应用的界面图像，生成所述第二文本。

10、根据上述技术手段，首先，确定用户输入语音文件的输入时间段，这样，将输入时间段作为后续截取前台应用的界面图像的时间范围；然后，基于输入时间段，确定目标前台应用的界面图像，这样，在输入时间段对应的时间范围内，截取目标前台应用的界面图像，作为后续生成第二文本的依据；最后，基于目标前台应用的界面图像，生成第二文本。通过本技术方案，在用户输入语音文件的输入时间段的时间范围内，将目标前台应用的界面图像转化为第二文本，作为后续对用户输入的语音文件所对应的第一文本进行校正的依据。

11、在一些实施例中，所述基于所述输入时间段，确定目标前台应用的界面图像，包括：在所述输入时间段内，监测所述目标前台应用的界面是否发生变化；在所述前台应用的界面发生变化时，截取所述前台应用在变化前后的界面图像；将所述变化前后的界面图像确定为所述界面图像。

12、根据上述技术手段，首先，在输入时间段内，监测目标前台应用的界面是否发生变化，这样，可以确定需要截取的目标前台应用的界面图像的数量；然后，在前台应用的界面发生变化时，截取前台应用在变化前和变化后的界面图像，这样，可以确定变化前后所有的目标前台应用的界面图像；最后，将变化前后的界面图像确定为界面图像。通过本技术方案，在前台应用的界面未发生变化的情况下，只截取一张目标前台应用的界面图像，在前台应用的界面发生变化的情况下，截取多张目标前台应用的界面图像，将上述目标前台应用的界面图像作为后续生成第二文本的依据。

13、在一些实施例中，所述获取至少一个所述前台应用的业务服务类型，包括：获取第一前台应用的第一业务服务类型，及第二前台应用的第二业务服务类型；在所述第一业务服务类型和所述第二业务服务类型相同的情况下，获取所述第一前台应用的第一业务服务注册时间，及所述第二前台应用的第二业务服务注册时间；将所述第一业务服务注册时间和所述第二业务服务注册时间在后的前台应用对应的业务服务类型确定为所述前台应用的业务服务类型。

14、根据上述技术手段，首先，获取第一前台应用的第一业务服务类型，及第二前台应用的第二业务服务类型，这样，可以将第一业务服务类型和第二业务服务类型作为后续判断业务服务类型是否相同的基础；然后，在第一业务服务类型和第二业务服务类型相同的情况下，获取第一前台应用的第一业务服务注册时间，及第二前台应用的第二业务服务注册时间，这样，可以得到两个业务服务类型相同的前台应用分别对应的业务服务注册时间，方便后续对两个业务服务注册时间的先后顺序进行判断；最后，将第一业务服务注册时间和第二业务服务注册时间在后的前台应用对应的业务服务类型确定为前台应用的业务服务类型。通过本技术方案，在第一前台应用和第二前台应用的业务服务类型相同的情况下，将业务服务注册时间在后的应用的业务服务类型确定为前台应用的业务服务类型，方便后续确定目标前台应用，并将目标前台应用的已展示界面上的文本确定为第二文本。

15、在一些实施例中，所述在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的情况下，将所述第一文本中与所述相同字符串对应的文本替换为所述第二文本中与所述相同字符串对应的文本，得到校正后的第一文本，包括：在所述第一拼音字符串是所述第二拼音字符串的子字符串的情况下，将所述第一文本替换为所述第二文本中与所述子字符串对应的文本，得到校正后的第一文本；在所述第一拼音字符串和所述第二拼音字符串完全相同的情况下，将所述第一文本替换为所述第二文本，得到校正后的第一文本；在所述第二拼音字符串是所述第一拼音字符串的子字符串的情况下，将所述第一文本中与所述子字符串对应的文本替换为所述第二文本，得到校正后的第一文本。

16、根据上述技术手段，分别对第一拼音字符串和第二拼音字符串存在相同字符串的三种情况进行分析，明确了在上述三种情况下，将第一文本替换为第二文本的具体替换方式，从而实现用前台应用的界面图像对应的第二文本对用户输入的语音文件对应的第一文本进行校正，提高了语音识别的准确性。

17、第二方面，本技术实施例提供一种语音识别装置，包括：第一获取模块，用于获取用户输入的语音文件所对应的第一文本；第二获取模块，用于在用户输入所述语音文件时获取前台应用的界面图像上的第二文本；转换模块，用于将所述第一文本转换为第一拼音字符串，以及将所述第二文本转换为第二拼音字符串；替换模块，用于在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的情况下，将所述第一文本中与所述相同字符串对应的文本替换为所述第二文本中与所述相同字符串对应的文本，得到校正后的第一文本；输出模块，用于将所述校正后的第一文本确定为所述语音文件的输出文本。

18、第三方面，本技术实施例提供一种语音识别设备，包括处理器和存储器：所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中的存储的计算机程序，实现所述语音识别方法。

19、第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器运行时，实现所述语音识别方法。

20、本技术的有益效果：

21、本技术采用上述语音识别方法，通过前台应用的界面文本信息，可以实现对输入的语音对应的识别文本进行校正，从而提高语音识别的准确率。

22、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本技术的技术方案。