技术新讯 > 乐器声学设备的制造及制作,分析技术 > 客服语音识别方法、装置、设备和存储介质与流程 > 正文

客服语音识别方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:28:44

本技术涉及语音识别领域，具体涉及一种客服语音识别方法、装置、设备和存储介质。

背景技术：

1、目前，随着语音识别技术的不断发展，许多行业基于语音识别技术从而衍生出智能语音客服系统。实现由语音识别系统完成语音到文字的转换，并且通过自然语言识别算法来实现对文本进行分析，从而提取客服对话中的关键信息。然而现有的语音识别系统应用语音端点检测和话者分离将语音切为语音序列后对语音序列进行识别，导致损失一定的上下文信息，无法准确地识别语音信息；其次，客服场景中客服语音往往是采用合成音的形式，而现有的智能语音客服系统在运行过程中并未考虑合成音，导致降低说话者分离的准确率和解码准确率，难以满足现有的客服场景需求。

技术实现思路

1、本技术实施例提供一种客服语音识别方法、装置、设备和存储介质，旨在解决现有技术中的智能语音客服系统的语音识别和说话人分离的准确性较差的技术问题。

2、一方面，本技术实施例提供一种客服语音识别方法，所述客服语音识别方法包括以下步骤：

3、过滤待识别的语音会话信息中的合成音频，对过滤后的语音会话信息进行聚类，得到客服语音序列和访客语音序列；

4、对所述客服语音序列进行初次解码，得到客服解码结果，对所述访客语音序列进行初次解码，得到访客解码结果；

5、根据所述客服解码结果对所述客服语音序列进行重打分，以及根据所述访客解码结果对所述访客语音序列进行重打分；

6、对重打分后的客服语音序列进行二次解码，并对重打分后的访客语音序列进行二次解码，得到所述语音会话信息的语音识别结果。

7、在本技术一种可能的实现方式中，所述对所述客服语音序列进行初次解码，得到客服解码结果；对所述访客语音序列进行解码，得到访客解码结果，包括：

8、对所述客服语音序列进行初次解码，得到各客服候选解码序列，并对所述访客语音序列进行初次解码，得到各访客候选解码序列；

9、对各所述客服候选解码序列进行初次打分，得到客服解码分值，并对各所述访客候选解码序列进行初次打分，得到访客解码分值；

10、确定所述客服解码分值最高的客服解码序列，获取所述客服候选序列对应的客服解码结果；

11、确定所述访客解码分值最高的访客解码序列，获取所述访客解码序列对应的访客解码结果。

12、在本技术一种可能的实现方式中，所述根据所述客服解码结果对所述客服语音序列进行重打分，以及根据所述访客解码结果对所述访客语音序列进行重打分，包括：

13、对所述客服候选解码序列进行再筛选，得到客服筛选词网格，对所述访客候选解码序列进行路径再筛选，得到访客筛选词网格；

14、将所述客服筛选词网格中的客服候选解码路径与所述客服解码结果输入到预设的重打分模型，计算所述客服候选解码路径的客服二次评分；

15、将所述访客筛选词网格中的访客候选解码路径与所述访客解码结果输入到所述重打分模型，计算所述访客候选解码路径的访客二次评分。

16、在本技术一种可能的实现方式中，所述对重打分后的客服语音序列进行二次解码，并对重打分后的访客语音序列进行二次解码，得到所述语音会话信息的语音识别结果，包括：

17、获取所述客服候选解码路径的客服起始语音序列，获取所述客服解码结果中与所述客服起始语音序列相关联的参考客服语音序列；

18、对所述客服候选解码路径进行解码，得到客服解码候选结果；

19、获取所述参考客服语音序列预设子序列对应的参考解码结果，将所述参考解码结果和所述客服解码候选结果进行关联拼接，得到拼接候选结果；

20、对所述拼接候选结果进行二次评分计算，得到所述客服候选解码路径的客服二次评分。

21、在本技术一种可能的实现方式中，所述过滤待识别的语音会话信息中的合成音频，包括：

22、对初始的语音会话信息进行分帧处理，得到客服语音分帧；

23、对所述客服语音分帧进行语音端点检测，确定所述语音会话信息的静音分割点；

24、根据所述静音分割点对所述语音会话信息进行静音分割，确定所述语音会话信息中的静音语音序列；

25、过滤所述语音会话信息中的静音语音序列，得到过滤后的语音会话信息。

26、在本技术一种可能的实现方式中，所述过滤待识别的语音会话信息中的合成音频，包括：

27、获取待识别的语音会话信息的声纹特征向量；

28、将所述声纹特征向量与预设的人声声纹向量进行相似度检测，得到所述声纹特征向量的声纹相似度；

29、比较所述声纹相似度和预设的人声匹配阈值，若所述声纹相似度小于所述人声匹配阈值，则确定所述语音会话信息为合成音频，过滤所述合成音频。

30、在本技术一种可能的实现方式中，所述对过滤后的语音会话信息进行聚类，得到客服语音序列和访客语音序列，包括：

31、读取客服交互信息，根据所述客服交互信息预设所述语音会话信息的说话人数目；

32、获取过滤后的语音会话信息中的各声纹特征向量，解析所述声纹特征向量获取所述声纹特征向量的说话人信息；

33、根据所述说话人数目和所述说话人信息对过滤后的语音会话信息进行聚类，得到客服语音序列和访客语音序列。

34、另一方面，本技术提供一种客服语音识别装置，所述客服语音识别装置包括：

35、语音获取模块，被配置为获取待识别的语音会话信息；

36、话者分离模块，被配置为过滤所述语音会话信息中的合成音频，对过滤后的语音会话信息进行聚类，得到客服语音序列和访客语音序列；

37、语音解码模块，被配置为对所述客服语音序列进行解码，得到客服解码结果；对所述访客语音序列进行解码，得到访客解码结果；

38、二次解码模块，被配置为根据所述客服解码结果对所述客服语音序列进行重打分，根据所述访客解码结果对所述访客语音序列进行重打分，得到所述语音会话信息的语音识别结果。

39、另一方面，本技术还提供一种客服语音识别设备，所述客服语音识别设备包括：

40、一个或多个处理器；

41、存储器；以及

42、一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现所述的客服语音识别方法。

43、另一方面，本技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的客服语音识别方法中的步骤。

44、本技术中通过获取待识别的语音会话信息；检测该语音会话信息中的合成音频并过滤语音会话信息中的合成音频，从而避免合成音频对语音识别结果造成干扰；对过滤后的语音会话信息进行聚类，从而对语音会话信息进行说话人分离得到客服语音序列和访客语音序列；在获得客服语音序列和访客语音序列后，对所述客服语音序列进初次行解码，得到客服解码结果；对所述访客语音序列进行初次解码，得到访客解码结果；并根据客服解码结果对客服语音序列进行重打分，根据所述访客解码结果对所述访客语音序列进行重打分，对重打分后的客服语音序列进行二次解码，并对重打分后的访客语音序列进行二次解码，得到所述语音会话信息的语音识别结果。实现对分离后的客服语音和访客语音进行二次解码，提高客服语音场景下的语音识别准确率。