技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别处理方法、装置、电子设备及非易失性存储介质与流程 > 正文

语音识别处理方法、装置、电子设备及非易失性存储介质与流程

国知局
2024-06-21 11:57:34

本技术涉及ai的自然语言处理领域，具体而言，涉及一种语音识别处理方法、装置、电子设备及非易失性存储介质。

背景技术：

1、目前在ai语音产品中，能力提供方或集成商往往都使用固有的一种语音识别引擎，并将其应用于所有外呼场景，而语音识别引擎的识别能力与其研发机构的主攻领域、技术累积、企业背景有密切关联；加之随着政策的驱动和多重因素的影响，ai语音服务越来越普及，其业务场景也与日俱增。场景不同，涉及的人群、词库、环境、句长、语种也不同。

2、目前往往针对所有业务场景仅采用单一的语音识别引擎，这会很大程度地影响识别率的稳定性，进而影响后续自然语言处理(natural language processing，简称为nlp)对语义的理解，甚至造成整句识别错误的情况。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种语音识别处理方法、装置、电子设备及非易失性存储介质，以至少解决使用单语音识别引擎覆盖全业务场景导致某些业务场景下识别率较低的技术问题。

2、根据本技术实施例的一个方面，提供了一种语音识别处理方法，包括：调用多个语音识别引擎对属于目标行业的目标业务场景中的录音文件进行语音识别，得到文本数据，并确定文本数据中的关键词和非关键词；分别确定文本数据中关键词和非关键词的字错率(character error rate，简称为cer)，并将关键词和非关键词的字错率进行加权运算，得到真实字错率(true character error rate，简称为tcer)；根据真实字错率从多个语音识别引擎中确定目标语音识别引擎。

3、在一些实施例中，调用多个语音识别引擎对属于目标行业的目标业务场景中的录音文件进行语音识别，得到文本数据包括：提取知识库中属于目标行业的目标业务场景中的录音文本数据作为标准文本，调用多个语音识别引擎对录音文件进行语音识别，得到文本数据；确定文本数据中的关键词和非关键词包括：去除文本数据和标准文本中属于停用词库中的停用词；对去除停用词后的文本数据进行关键词识别，将文本数据和标准文本均分成两部分：关键词部分和非关键词部分。

4、在一些实施例中，知识库通过以下方式确定：对外呼设备中的历史录音数据进行处理，并保存为录音文本数据；将录音文本数据按照行业进行分类，并提取行业的专业词类作为关键词；将按照行业进行分类后的录音文本数据按照行业下的场景进行分类，并提取行业下的场景的高频词类作为关键词；将各个行业及每个行业对应的关键词、每个行业下的多个场景及每个场景对应的关键词、每个场景对应的多个录音文本数据存入知识库。

5、在一些实施例中对去除停用词后的文本数据进行关键词识别，包括：使用多语种自然语言处理工具包将文本数据进行分词操作并标注词性，得到多个分词以及与多个分词对应的词性；将每个分词以及与分词对应的词性与标准文本的关键词类别中的字符进行匹配，在每个分词与标准文本的关键词类别中的字符的词性和语义均匹配的情况下，确定分词为关键词，并将匹配完成后文本数据中剩余字符确定为非关键词，其中，标准文本的关键词类别由知识库中标准文本从属的每个行业的专业词类和每个行业下的场景的高频词类组成。

6、在一些实施例中，分别确定文本数据中关键词和非关键词的字错率包括：将文本数据中的字符与知识库中属于目标行业的目标业务场景中的标准文本中的字符进行对比，依据对比结果确定文本数据中删除的字符数、替换的字符数、插入的字符数以及文本数据正确识别出的属于标准文本的字符数；依据文本数据中删除的字符数、替换的字符数、插入的字符数以及文本数据正确识别出的属于标准文本的字符数之间的函数关系，分别确定关键词和非关键词的字错率。

7、在一些实施例中，函数关系可以通过以下公式确定：

8、

9、其中，cer表示字错率，s表示文本数据替换的字符数目、d表示文本数据删除的字符数目、i表示文本数据插入的字符数目、n表示参考序列中字符总数，n为s、d、和h的加和，h表示文本数据识别正确的字符数目。

10、在一些实施例中，将关键词和非关键词的字错率进行加权运算，得到真实字错率包括：通过关键词的字错率、关键词对应的权重和关键词个数之间的函数关系得到关键词的真实字错率；通过非关键词的字错率、非关键词对应的权重和非关键词个数之间的函数关系得到非关键词的真实字错率；再将关键词的真实字错率和非关键词的真实字错率进行平均运算得到真实字错率。

11、在一些实施例中，关键词的字错率、关键词对应的权重和关键词个数之间的函数关系可以通过以下公式确定:

12、

13、其中，tcer1表示关键词的真实字错率，ai是第i个关键词的权重，n表示关键词总数，ceri表示第i个关键词的字错率；非关键词的字错率、非关键词对应的权重和非关键词个数之间的函数关系可以通过以下公式确定:

14、

15、其中，tcer2表示非关键词的真实字错率，aj是第j个非关键词的权重，m表示非关键词总数，cerj表示第j个非关键词的字错率。

16、在一些实施例中，根据真实字错率从多个语音识别引擎确定目标语音识别引擎包括：确定预设时间周期内接收到的录音文件，并确定接收到的录音文件所对应的文本数据的真实字错率；将真实字错率的值按升序进行排序，并选取排序结果中排在前n名的真实字错率所对应的语音识别引擎，对文本数据进行预设次数的识别评估，得到第二字错率，其中，n为大于1的整数；其中，识别评估包括：调用按升序进行排序后的真实字错率的值排在前n名的语音识别引擎对录音文件进行语音识别，得到子文本数据，确定子文本数据的关键词和非关键词，计算子文本数据的关键词和非关键词的字错率，并通过加权运算获取子真实字错率，将子真实字错率的值按升序进行排序，并选取按升序进行排序后的子字错率的值排在前n名的语音识别引擎，其中，确定子文本数据的关键词和非关键词，计算子文本数据的关键词和非关键词的字错率，并通过加权运算获取子真实字错率的方式和确定真实字错率的方式相同，其中，n为大于1的整数；获取真实字错率和第二字错率的平均值，对平均值进行排序，并从排序结果中选取平均值最小的语音识别引擎作为目标语音识别引擎。

17、根据本技术实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上所述的语音识别处理方法。

18、根据本技术实施例的另一方面，还提供了一种电子设备，电子设备包括处理器，处理器用于运行程序，其中，在程序运行时执行以上所述的语音识别处理方法。

19、根据本技术实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以上所述的所述语音识别处理方法。

20、在本技术实施例中，采用调用多个语音识别引擎对属于目标行业的目标业务场景中的录音文件进行语音识别，得到文本数据，并确定文本数据中的关键词和非关键词；分别确定文本数据中关键词和非关键词的字错率，并将关键词和非关键词的字错率进行加权运算，得到真实字错率；根据真实字错率从多个语音识别引擎中确定目标语音识别引擎的方式，由于根据上述方案，可以从多个语音识别引擎中选择目标语音识别引擎，因此，考虑了多个语音识别引擎的业务场景，进而解决了使用单语音识别引擎覆盖全业务场景导致某些业务场景下识别率较低技术问题。