技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本纠错方法、装置、设备及可读存储介质与流程 > 正文

文本纠错方法、装置、设备及可读存储介质与流程

国知局
2024-06-21 11:54:19

本技术涉及语音处理，更具体的说，是涉及一种文本纠错方法、装置、设备及可读存储介质。

背景技术：

1、在一些场景中，需要对语音数据对应的文本进行纠错，比如，目前的语音识别技术无法达到完全正确的识别效果，在对用户的语音数据进行识别时，得到的识别文本中仍然有可能存在错误。因此，需要对识别文本进行纠错。另外，目前的语音识别技术往往是基于语音样本库训练语音识别模型实现的，但是，现有的语音样本库中，样本语音数据的标注文本也有可能存在错误，因此，需要对语音样本库中各样本语音数据的标注文本进行纠错。

2、目前，在对语音数据对应的文本进行纠错时，多采用语言模型纠错方案或者固定范式纠错方案，但是，这两种方案的纠错准确率较低。

3、因此，如何提供一种对语音数据对应的文本进行纠错的方法，以提升纠错准确率，成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、鉴于上述问题，本技术提出了一种文本纠错方法、装置、设备及可读存储介质，以提升纠错准确率。具体方案如下：

2、一种文本纠错方法，所述方法包括：

3、确定待纠错文本；

4、基于所述待纠错文本的上下文语义信息以及音素信息，对所述待纠错文本中进行纠错，得到纠错后文本；

5、确定所述纠错后文本的置信度，如果所述置信度满足预设条件，则将所述纠错后文本确定为所述语音数据对应的最终纠错后文本。

6、可选地，所述基于所述待纠错文本的上下文语义信息以及音素信息，对所述待纠错文本中进行纠错，得到纠错后文本，包括：

7、获取所述待纠错文本对应的语音数据；

8、将所述语音数据输入第一语音识别模型，所述第一语音识别模型基于所述语音数据的上下文语义特征，得到第一识别文本；

9、将所述语音数据输入第二语音识别模型，所述第二语音识别模型基于所述语音数据的音素特征，得到第二识别文本；

10、基于所述待纠错文本、所述第一识别文本以及所述第二识别文本，得到纠错后文本。

11、可选地，所述基于所述待纠错文本、所述第一识别文本以及所述第二识别文本，得到纠错后文本，包括：

12、基于所述待纠错文本、所述第一识别文本以及所述第二识别文本之间的相似度，确定所述待纠错文本中的待纠错字符；

13、针对每个待纠错字符，确定所述待纠错字符的纠错后字符；

14、将所述待纠错文本中各个所述待纠错字符替换为对应所述待纠错字符的纠错后字符，得到纠错后文本。

15、可选地，所述基于所述待纠错文本、所述第一识别文本以及所述第二识别文本之间的相似度，确定所述待纠错文本中的待纠错字符，包括：

16、将所述待纠错文本、所述第一识别文本以及所述第二识别文本进行对齐，得到对齐结果；

17、基于对齐结果确定候选字符；

18、基于所述候选字符所在位置的对齐结果之间的相似度，从所述候选字符中，确定所述待纠错字符。

19、可选地，所述基于对齐结果确定候选字符，包括：

20、针对所述待纠错文本中的每个字符，基于该字符所在位置处是否存在对齐结果，逐个字符判断该字符是否为待纠错字符。

21、可选地，所述基于所述候选字符所在位置的对齐结果之间的相似度，从所述候选字符中，确定所述待纠错字符，包括：

22、针对每个所述候选字符，基于所述候选字符所在位置的对齐结果中两两之间的相似度，确定所述候选字符是否为待纠错字符。

23、可选地，所述确定所述待纠错字符的纠错后字符，包括：

24、从所述语音数据中，确定与所述待纠错字符对应的音频片段；

25、从所述第一识别文本中确定与所述音频片段对应的文本为第一纠错备选项；

26、从所述第二识别文本中确定与所述音频片段对应的文本为第二纠错备选项；

27、基于所述音频片段对应的音素与所述第一纠错备选项对应的音素的相似度，以及所述音频片段对应的音素与所述第二纠错备选项对应的音素的相似度，确定所述待纠错字符的纠错后字符。

28、可选地，所述确定所述纠错后文本的置信度，包括：

29、将所述纠错后文本输入训练好的语言模型，所述语言模型输出所述纠错后文本的困惑度；

30、基于预设困惑度阈值与所述纠错后文本的困惑度，确定所述纠错后文本的置信度。

31、一种文本纠错装置，所述装置包括：

32、确定单元，用于确定待纠错文本；

33、纠错单元，用于基于所述待纠错文本的上下文语义信息以及音素信息，对所述待纠错文本中进行纠错，得到纠错后文本；

34、最终决策单元，用于确定所述纠错后文本的置信度，如果所述置信度满足预设条件，则将所述纠错后文本确定为所述语音数据对应的最终纠错后文本。

35、可选地，所述纠错单元，包括：

36、语音数据获取单元，用于获取所述待纠错文本对应的语音数据；

37、第一识别文本确定单元，用于将所述语音数据输入第一语音识别模型，所述第一语音识别模型基于所述语音数据的上下文语义特征，得到第一识别文本；

38、第二识别文本确定单元，用于将所述语音数据输入第二语音识别模型，所述第二语音识别模型基于所述语音数据的音素特征，得到第二识别文本；

39、纠错后文本确定单元，用于基于所述待纠错文本、所述第一识别文本以及所述第二识别文本，得到纠错后文本。

40、可选地，所述纠错后文本确定单元，包括：

41、待纠错字符确定单元，用于基于所述待纠错文本、所述第一识别文本以及所述第二识别文本之间的相似度，确定所述待纠错文本中的待纠错字符；

42、纠错后字符确定单元，用于针对每个待纠错字符，确定所述待纠错字符的纠错后字符；

43、替换单元，用于将所述待纠错文本中各个所述待纠错字符替换为对应所述待纠错字符的纠错后字符，得到纠错后文本。

44、可选地，所述待纠错字符确定单元，包括：

45、对齐单元，用于将所述待纠错文本、所述第一识别文本以及所述第二识别文本进行对齐，得到对齐结果；

46、候选字符确定单元，用于基于对齐结果确定候选字符；

47、候选字符筛选单元，用于基于所述候选字符所在位置的对齐结果之间的相似度，从所述候选字符中，确定所述待纠错字符。

48、可选地，所述候选字符确定单元，具体用于：

49、针对所述待纠错文本中的每个字符，基于该字符所在位置处是否存在对齐结果，逐个字符判断该字符是否为待纠错字符。

50、可选地，所述候选字符筛选单元，具体用于：

51、针对每个所述候选字符，基于所述候选字符所在位置的对齐结果中两两之间的相似度，确定所述候选字符是否为待纠错字符。

52、可选地，所述纠错后字符确定单元，具体用于：

53、从所述语音数据中，确定与所述待纠错字符对应的音频片段；

54、从所述第一识别文本中确定与所述音频片段对应的文本为第一纠错备选项；

55、从所述第二识别文本中确定与所述音频片段对应的文本为第二纠错备选项；

56、基于所述音频片段对应的音素与所述第一纠错备选项对应的音素的相似度，以及所述音频片段对应的音素与所述第二纠错备选项对应的音素的相似度，确定所述待纠错字符的纠错后字符。

57、可选地，所述最终决策单元，具体用于：

58、将所述纠错后文本输入训练好的语言模型，所述语言模型输出所述纠错后文本的困惑度；

59、基于预设困惑度阈值与所述纠错后文本的困惑度，确定所述纠错后文本的置信度。

60、一种文本纠错设备，包括存储器和处理器；

61、所述存储器，用于存储程序；

62、所述处理器，用于执行所述程序，实现如上所述的文本纠错方法的各个步骤。

63、一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的文本纠错方法的各个步骤。

64、借由上述技术方案，本技术公开了一种文本纠错方法、装置、设备及可读存储介质，在确定待纠错文本之后，先基于待纠错文本的上下文语义信息以及音素信息，对待纠错文本中进行纠错，得到纠错后文本，再确定纠错后文本的置信度，如果置信度满足预设条件，则将纠错后文本确定为语音数据对应的最终纠错后文本，本方案中，由于在对待纠错文本中进行纠错时，同时考虑了待纠错文本的上下文语义准确性以及发音识别准确性，使得纠错后文本的准确性有所提升，另外还利用纠错后文本的置信度进行最终决策，确定是否采用纠错后文本对待纠错文本进行纠错，因此，可以进一步提升纠错准确率。