技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音的文本预处理方法、装置、存储介质和电子设备与流程 > 正文

基于语音的文本预处理方法、装置、存储介质和电子设备与流程

国知局
2024-06-21 11:26:21

本发明涉及文本处理，尤其涉及一种基于语音的文本预处理方法、装置、存储介质和电子设备。

背景技术：

1、在智能外呼语音对话系统中，将用户反馈的回答语音经过自动语音识别(asr，automatic speech recognition)，转写为转写文本，再传递到下游进行自然语言理解(nlu，natural language understanding)处理，例如，进行意图识别处理。由于回答语音中，用户的表达较为自然、随意，因而，回答语音经过asr转写得到的转写文本中，除了包含表达用户意图的核心内容外，还包含部分冗余信息，例如口语词、停顿、纠正、重复以及对问题的部分复述等。因而，包含冗余信息的转写文本传递给下游进行自然语言理解处理时，容易对处理结果产生负向影响。例如，当自然语言理解处理为通过文本匹配或文本分类进行意图识别时，包含冗余信息的转写文本容易被错误匹配或错误分类，使得转写文本的自然语言理解处理精度较低。

技术实现思路

1、有鉴于此，本发明提供一种基于语音的文本预处理方法、装置、存储介质和电子设备。

2、具体地，本发明是通过如下技术方案实现的：

3、根据本发明的第一方面，提供一种基于语音的文本预处理方法，基于语音的文本预处理方法包括：

4、获取对回答语音进行自动语音识别得到的转写文本，以及所述回答语音对应的问题语音进行自动语音识别得到的系统问题文本；

5、拼接所述系统问题文本及所述转写文本，得到拼接文本；

6、将所述拼接文本输入预先训练的冗余信息识别模型中的编码器进行编码，得到所述拼接文本的文本隐含表示；

7、获取所述回答语音的语音特征，与文本隐含表示中所述转写文本的文本隐含表示进行拼接，得到拼接特征；

8、将所述拼接特征输入预先训练的冗余信息识别模型中的分类器，得到标签序列，依据所述标签序列中标签，对所述转写文本进行预处理。

9、本技术方案中的基于语音的文本预处理方法，通过获取回答语音对应的转写文本、回答语音对应的问题语音对应的系统问题文本及回答语音的语音特征，拼接系统问题文本及转写文本，作为编码器的输入进行编码，得到转写文本的文本隐含表示，与语音特征进行拼接，作为分类器的输入，依据分类器输出的标签序列，对转写文本进行预处理。这样，利用系统问题文本作为转写文本的上下文信息，有利于识别转写文本中的重复表述等冗余信息，以及，辅助语音特征对转写文本的文本隐含表示进行分类，基于分类的标签删除冗余信息，可以有效提升转写文本的冗余信息识别效果，进而降低对下游文本匹配或文本分类任务的影响，提升意图识别的准确率。

10、根据本发明的第二方面，提供一种基于语音的文本预处理装置，基于语音的文本预处理装置包括：

11、文本获取模块，用于获取对回答语音进行自动语音识别得到的转写文本，以及所述回答语音对应的问题语音进行自动语音识别得到的系统问题文本；

12、第一拼接模块，用于拼接所述系统问题文本及所述转写文本，得到拼接文本；

13、编码模块，用于将所述拼接文本输入预先训练的冗余信息识别模型中的编码器进行编码，得到所述拼接文本的文本隐含表示；

14、第二拼接模块，用于获取所述回答语音的语音特征，与文本隐含表示中所述转写文本的文本隐含表示进行拼接，得到拼接特征；

15、分类模块，用于将所述拼接特征输入预先训练的冗余信息识别模型中的分类器，得到标签序列，依据所述标签序列中标签，对所述转写文本进行预处理。

16、根据本发明的第三方面，提供一种存储介质，其上存储有计算机程序，程序被处理器执行时实现第一方面的任意可能的实现方式中的基于语音的文本预处理方法的步骤。

17、根据本发明的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现第一方面的任意可能的实现方式中的基于语音的文本预处理方法的步骤。

技术特征：

1.一种基于语音的文本预处理方法，其特征在于，包括：

2.根据权利要求1所述的基于语音的文本预处理方法，其特征在于，所述拼接所述系统问题文本及所述转写文本，包括：

3.根据权利要求2所述的基于语音的文本预处理方法，其特征在于，所述依据所述标签序列中标签，对所述转写文本进行预处理，包括：

4.根据权利要求2所述的基于语音的文本预处理方法，其特征在于，所述依据所述标签序列中标签，对所述转写文本进行预处理，包括：

5.根据权利要求1所述的基于语音的文本预处理方法，其特征在于，所述拼接所述系统问题文本及所述转写文本，包括：

6.根据权利要求1所述的基于语音的文本预处理方法，其特征在于，在所述拼接所述系统问题文本及所述转写文本之前，所述方法还包括：

7.根据权利要求1至6任一项所述的基于语音的文本预处理方法，其特征在于，利用下述步骤获取所述预先训练的冗余信息识别模型：

8.一种基于语音的文本预处理装置，其特征在于，所述基于语音的文本预处理装置包括：

9.一种存储介质，其特征在于，存储介质上存储程序或指令，程序或指令被处理器运行时实现如权利要求1至7中任一项所述的基于语音的文本预处理方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于语音的文本预处理方法的步骤。

技术总结本发明涉及一种基于语音的文本预处理方法、装置、存储介质和电子设备，基于语音的文本预处理方法包括：获取对回答语音进行自动语音识别得到的转写文本，以及回答语音对应的问题语音进行自动语音识别得到的系统问题文本；拼接系统问题文本及转写文本，得到拼接文本；将拼接文本输入预先训练的冗余信息识别模型中的编码器进行编码，得到拼接文本的文本隐含表示；获取回答语音的语音特征，与文本隐含表示中转写文本的文本隐含表示进行拼接，得到拼接特征；将拼接特征输入预先训练的冗余信息识别模型中的分类器，得到标签序列，依据标签序列中标签，对转写文本进行预处理。可以提升文本的冗余信息识别效果。技术研发人员：李浩斌,冯明超受保护的技术使用者：京东城市（北京）数字科技有限公司技术研发日：技术公布日：2024/2/6