技术新讯 > 乐器声学设备的制造及制作,分析技术 > 对话识别方法、装置、计算机设备及存储介质与流程 > 正文

对话识别方法、装置、计算机设备及存储介质与流程

国知局
2024-06-21 11:49:56

本申请涉及人工智能，特别是涉及一种对话识别方法、装置、计算机设备及存储介质。

背景技术：

1、在语音质检的场景中，坐席对象通常会与服务对象进行对话，以进行回访或者销售。在某些情况下，坐席对象为了满足对话要求，会在于服务对象对话的过程中播放提前录制好的录音音频，这会非常影响对话的质量。

2、为了解决以上问题，主要是通过对坐席对象与服务对象的对话音频进行声纹识别，从而检测坐席对象在对话过程中是否存在播放录音的行为。但是，由于录音音频无法穷举，且坐席对象也在不断产生新的录音音频，这会增加声纹识别的漏召回，从而影响对话识别的准确性。

技术实现思路

1、本申请提供一种对话识别方法、装置、计算机设备、及计算机可读存储介质，能够提高对话识别的准确性。

2、第一方面，本申请提供了一种对话识别方法，包括：

3、从坐席对象与服务对象的对话音频中提取坐席文本片段，得到包括多个子集的坐席文本片段集，同一子集包括的坐席文本片段相同；

4、将每个子集包括的坐席文本片段对应的序列信息进行有序组合，得到每个子集对应的文本片段序列集，序列信息用于表征对应的坐席文本片段在坐席文本片段集中的位置；

5、从多个文本片段序列集中提取序列位置匹配的序列信息，以及基于序列位置匹配的序列信息，确定对话录音参考信息；序列位置用于表征序列信息在所属的文本片段序列集中的位置；

6、若基于对话录音参考信息确定对话音频不包含录音音频，则确定各预设录音分词分别在对话音频出现的次数；

7、基于次数对对话音频进行识别，得到识别结果。

8、第二方面，本申请提供了一种对话识别装置，包括：

9、片段提取模块，用于从坐席对象与服务对象的对话音频中提取坐席文本片段，得到包括多个子集的坐席文本片段集，同一子集包括的坐席文本片段相同；

10、集合确定模块，用于将每个子集包括的坐席文本片段对应的序列信息进行有序组合，得到每个子集对应的文本片段序列集，序列信息用于表征对应的坐席文本片段在坐席文本片段集中的位置；

11、信息确定模块，用于从多个文本片段序列集中提取序列位置匹配的序列信息，以及基于序列位置匹配的序列信息，确定对话录音参考信息；序列位置用于表征序列信息在所属的文本片段序列集中的位置；

12、次数确定模块，用于若基于对话录音参考信息确定对话音频不包含录音音频，则确定各预设录音分词分别在对话音频出现的次数；

13、对话识别模块，用于基于次数对对话音频进行识别，得到识别结果。

14、第三方面，本申请提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行该计算机程序时实现上述的方法中的步骤。

15、第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的方法中的步骤。

16、第五方面，本申请提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述的方法中的步骤。

17、上述对话识别方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，通过从坐席对象与服务对象的对话音频中提取坐席文本片段，得到包括多个坐席文本片段相同的子集的坐席文本片段集。将每个子集包括的坐席文本片段对应的序列信息进行有序组合，得到每个子集对应的文本片段序列集。其中，序列信息用于表征对应的坐席文本片段在坐席文本片段集中的位置，即，每个坐席文本片段分别在坐席文本片段集中的位置信息。从多个文本片段序列集中提取序列位置匹配的序列信息，以及基于序列位置匹配的序列信息，确定对话录音参考信息。其中，序列位置用于表征序列信息在所属的文本片段序列集中的位置。由于，在正常的对话过程中，基本不存在相同的话术，因此在正常对话的情况下，基于对话音频提取得到的坐席文本片段通常不会出现重复的情况。基于此，本申请则先将相同的坐席文本片段划分到同一子集得到坐席文本片段集，在坐席文本片段集对应的文本片段序列集为多个的情况下，则说明该坐席对象在本次对话中很有可能说了重复的话术。在此基础上，通过计算序列位置匹配的序列信息之间的差异，即，计算不同的坐席文本片段子集在坐席文本片段集出现多次的间隔，能够进一步识别坐席对象在本次对话中是否重复播放同一段录音音频。由于上述识别方式只需要判断对话过程中坐席的话术是否出现重复的情况，且这些重复的话术是否符合一定的规则即可，即便坐席对象重复播放新的录音音频也不影响上述的识别，这避免了传统的声纹识别方式中存在的一旦出现新的录音音频则会影响对话识别准确率的问题，因此，这相较于通过声纹识别进行对话检测的准确性更高。若基于对话录音参考信息确定对话音频不包含录音音频，则确定各预设录音分词分别在对话音频出现的次数；基于次数对对话音频进行识别，得到识别结果。这样能够在基于对话录音参考信息对对话音频进行初步识别的基础上，还可以通过各预设录音分词分别在对话音频出现的次数进行补充识别，能够进一步提高对话识别的准确性。总体来说，本申请通过分步进行对话识别的方法，能够有效检测对话音频是否包含录音音频，即有效检测坐席对象在对话过程中是否存在播放录音的行为，这相比传统通过声纹识别方式进行对话检测的准确性更高。

技术特征：

1.一种对话识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多个文本片段序列集包括第一文本片段序列集和第二文本片段序列集；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述若基于所述对话录音参考信息确定所述对话音频不包含录音音频，则确定各预设录音分词分别在所述对话音频出现的次数，包括：

5.根据权利要求4所述的方法，其特征在于，所述将各预设录音分词分别和所述各坐席文本分词进行匹配，在分词匹配成功的情况下，确定分词匹配成功的预设录音分词在所述各坐席文本分词出现的次数，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述次数对所述对话音频进行识别，得到识别结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述次数与所述总分词数量的比值对所述对话音频进行识别，得到识别结果，包括：

8.一种对话识别装置，其特征在于，包括：

9.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及一种对话识别方法、装置、计算机设备及存储介质。方法包括：从坐席对象与服务对象的对话音频中提取坐席文本片段，得到包括多个子集的坐席文本片段集；将每个子集包括的坐席文本片段对应的序列信息进行有序组合，得到每个子集对应的文本片段序列集；从多个文本片段序列集中提取序列位置匹配的序列信息，以及基于序列位置匹配的序列信息，确定对话录音参考信息；若基于对话录音参考信息确定对话音频不包含录音音频，则确定各预设录音分词分别在对话音频出现的次数；基于次数对对话音频进行识别，得到识别结果。采用本申请能够提高对话识别的准确性。技术研发人员：李长林受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/8