技术新讯 > 乐器声学设备的制造及制作,分析技术 > 解码处理方法、装置、设备及存储介质与流程 > 正文

解码处理方法、装置、设备及存储介质与流程

国知局
2024-06-21 10:40:50

本申请涉及语音解码领域，特别是涉及到一种解码处理方法、装置、设备及存储介质。

背景技术：

1、命令词识别属于语音识别，广泛应用于智能家居领域，比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。随着深度学习技术的发展，命令词的正识别率有显著提升，已基本满足用户需求。在语音解码的过程通常需要使用ctc解码器（connectionisttemporal classification）进行解码,ctc解码器具有轻量，训练无需帧级别对齐信息，方便训练的特点，较多地应用于嵌入式设备上的语音识别。但由于使用ctc解码器的输出是条件独立的,会产生一些输出不符合实际的语法结构，导致最后的识别准确率降低，误识别的概率升高。

2、因此，如何有效处理ctc的输出条件独立导致一些输出不符合实际的语法结构的情况，提升语音识别的准确率是亟待解决的问题。

技术实现思路

1、本申请的主要目的为提供一种解码处理方法、装置、设备及存储介质，旨在解决如何针有效处理ctc的输出条件独立导致一些输出不符合实际的语法结构的情况，提升语音识别的准确率的技术问题。

2、为了实现上述发明目的，本申请提出一种解码处理方法，所述方法包括：基于第一语音命令词对应的解码矩阵，得到预测文本结果；

3、判断所述预测文本结果与预设结果的编辑距离是否小于第一预设阈值；

4、若小于第一预设阈值，将所述解码矩阵以所述预设结果为解码路径进行路径对齐；

5、若在所述解码矩阵中某一时间点对应的音素列中，存在所述预设结果的音素得分值低于第二预设阈值，且最大的音素得分值对应的音素与所述预设结果对应的音素词性不同，则将对应的音素得分值进行修正；

6、若修正后的解码矩阵的识别结果大于第三预设阈值，判定为有效识别。

7、进一步地，所述基于第一语音命令词对应的解码矩阵，得到预测文本结果的步骤，包括：

8、通过语音识别模型对所述第一语音命令词进行声学建模和语言建模，得到对应的解码矩阵；

9、选择预设的解码算法，从所述解码矩阵的第一个时间点开始，逐步进行解码，当解码到最后一个时间点后，得出概率最高的词作为预测文本结果。

10、进一步地，所述判断所述预测文本结果与预设结果的编辑距离是否小于第一预设阈值的步骤，包括：

11、获取所述预测文本结果和所述预设结果的字符串信息；

12、创建编辑距离矩阵，并基于所述字符串信息对所述编辑距离矩阵进行填充；

13、基于填充后的编辑距离矩阵，得到所述预测文本结果和所述预设结果之间的编辑距离。

14、进一步地，所述若小于第一预设阈值，将所述解码矩阵以所述预设结果为解码路径进行路径对齐的步骤，包括：

15、根据解码矩阵的大小，初始化路径指针矩阵，其中，所述路径指针矩阵用于记录每个位置的路径指针；

16、遍历解码矩阵的时间点和音素，计算每个位置的路径得分和路径指针；

17、将每个位置的路径得分和路径指针与预设结果进行比较，并根据比较结果将路径得分与路径指针更新为最优值；

18、根据路径指针矩阵，从最后一个时间点开始，逆向回溯，获取对齐路径，完成路径对齐。

19、进一步地，所述将对应的音素得分值进行修正的步骤，包括：

20、遍历所述解码矩阵中的每个时间点对应的音素列，找到与所述预设结果对应的音素列；

21、基于与所述预设结果对应的音素列，检查每个音素的得分值，找到音素得分值低于第二预设阈值的音素位置；

22、确定对应音素列中音素得分值最大的音素，并与所述预设结果对应的音素进行比较；

23、若最大得分音素与参考结果对应音素的词性不同，判定为误识别；

24、将误识别的音素的得分值减去第四预设阈值，并将修正后的得分值补充到对应音素处。

25、进一步地，所述若修正后的解码矩阵的识别结果大于第三预设阈值，判定为有效识别的步骤，包括：

26、基于ctc准则，计算每个候选词路径或音素路径的得分；

27、从所有候选命令词中选择得分最高的命令词作为识别结果；

28、将该识别结果的得分与第三预设阈值进行比较，如果大于第三预设阈值，则认为是有效识别。

29、本申请的第二方面还包括一种解码处理装置，包括：

30、预测结果获取模块，用于基于第一语音命令词对应的解码矩阵，得到预测文本结果；

31、编辑距离判断模块，用于判断所述预测文本结果与预设结果的编辑距离是否小于第一预设阈值；

32、路径对齐模块，用于若小于第一预设阈值，将所述解码矩阵以所述预设结果为解码路径进行路径对齐；

33、修正模块，用于若在所述解码矩阵中某一时间点对应的音素列中，存在所述预设结果的音素得分值低于第二预设阈值，且最大的音素得分值对应的音素与所述预设结果对应的音素词性不同，则将对应的音素得分值进行修正；

34、正确判定模块，用于若修正后的解码矩阵的识别结果大于第三预设阈值，判定为有效识别。

35、进一步地，所述预测结果获取模块包括：

36、矩阵建立单元，用于通过语音识别模型对所述第一语音命令词进行声学建模和语言建模，得到对应的解码矩阵；

37、解码计算单元，用于选择预设的解码算法，从所述解码矩阵的第一个时间点开始，逐步进行解码，当解码到最后一个时间点后，得出概率最高的词作为预测文本结果。

38、本申请的第三方面还包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

39、本申请的第四方面还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

40、本申请提供的一种解码处理方法，只采用简单的字符串匹配方法来修正误识别的音素，无需进行复杂的后处理步骤，不需要对网络结构和框架进行改变，实现方式简单而有效，不会引入复杂性或额外的计算开销就能够有效降低误识别的发生，提升了用户体验和识别准确率。

技术特征：

1.一种解码处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的解码处理方法，其特征在于，所述基于第一语音命令词对应的解码矩阵，得到预测文本结果的步骤，包括：

3.根据权利要求1所述的解码处理方法，其特征在于，所述判断所述预测文本结果与预设结果的编辑距离是否小于第一预设阈值的步骤，包括：

4.根据权利要求1所述的解码处理方法，其特征在于，所述若小于第一预设阈值，将所述解码矩阵以所述预设结果为解码路径进行路径对齐的步骤，包括：

5.根据权利要求1所述的解码处理方法，其特征在于，所述将对应的音素得分值进行修正的步骤，包括：

6.根据权利要求1所述的解码处理方法，其特征在于，所述若修正后的解码矩阵的识别结果大于第三预设阈值，判定为有效识别的步骤，包括：

7.一种解码处理装置，其特征在于，包括：

8.根据权利要求7所述的一种解码处理装置，其特征在于，所述预测结果获取模块包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6 中任一项所述方法的步骤。

技术总结本申请涉及语音解码技术领域，特别是涉及到一种解码处理方法、装置、设备及存储介质，其中方法包括：基于第一语音命令词对应的解码矩阵，得到预测文本结果；判断所述预测文本结果与预设结果的编辑距离是否小于第一预设阈值；若小于第一预设阈值，将所述解码矩阵以所述预设结果为解码路径进行路径对齐；若在所述解码矩阵中某一时间点对应的音素列中，存在所述预设结果的音素得分值低于第二预设阈值，且最大的音素得分值对应的音素与所述预设结果对应的音素词性不同，则将对应的音素得分值进行修正；若修正后的解码矩阵的识别结果大于第三预设阈值，判定为有效识别。本申请能够以可控的计算耗时和简洁的算法过程实现提升语音识别的准确率。技术研发人员：李杰受保护的技术使用者：深圳市友杰智新科技有限公司技术研发日：技术公布日：2024/1/22