技术新讯 > 乐器声学设备的制造及制作,分析技术 > 呼叫中心的多语言语音识别方法、系统、设备及存储介质与流程 > 正文

呼叫中心的多语言语音识别方法、系统、设备及存储介质与流程

国知局
2024-06-21 11:37:00

所属的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。下面参照图5来描述根据本技术的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。如图5所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述呼叫中心的多语言语音识别方法部分中描述的根据本技术各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。所述呼叫中心的多语言语音识别设备中，所述存储器中的程序被处理器执行时实现所述的呼叫中心的多语言语音识别方法的步骤，因此，所述设备也可以获得上述呼叫中心的多语言语音识别方法的技术效果。本技术实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的呼叫中心的多语言语音识别方法的步骤。在一些可能的实施方式中，本技术的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上执行时，所述程序代码用于使所述终端设备执行本说明书上述呼叫中心的多语言语音识别方法部分中描述的根据本技术各种示例性实施方式的步骤。参考图6所示，描述了根据本技术的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上执行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。所述计算机存储介质中的程序被处理器执行时实现所述的呼叫中心的多语言语音识别方法的步骤，因此，所述计算机存储介质也可以获得上述呼叫中心的多语言语音识别方法的技术效果。以上内容是结合具体的优选实施方式对本技术所作的进一步详细说明，不能认定本技术的具体实施只局限于这些说明。对于本技术所属的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本技术的保护范围。

背景技术：

1、在ota(online travel agency，在线旅行社)行业，随着国际化趋势发展，当客人或酒店和ota客服进行电话语音实时沟通时，客人或酒店可能会说汉语普通话、粤语、英语等多种语言，同时这些语言是不确定的，尤其针对香港、广东等ota服务的客户，ota客服需要满足三种语言的服务。

2、随着人工智能的发展，智能加人工的质检模式逐渐成为主流，在呼叫中心客服质检场景中通常需要借助语音识别来提升质检效率，当前对于粤语语音识别的研究相对较少，粤语词具有声调多、发音困难以及方言多样性特性，同时，一般粤语场景基本都会掺杂说汉语、英文，这对粤语语音识别系统提高了新的挑战。目前为止，主流的语音识别系统都是只支持单语言系统，支持多种语言的语音识别系统较为少见，且效果不佳，基本上只能达到80％左右的精度。因此，面对ota行业的多语言场景语音识别问题，需要进行场景化的语言抽取和语音识别系统搭建，以提升ota行业的中英粤电话客服服务水平。

3、另外，现有主流的面对中英粤混合场景的解决方案中，大多采用语种和三个语言(普通话、英文、粤语)总共4个模型来解决该场景面对的多语言语音识别问题，该解决方案不仅存在响应链路多和响应耗时长的问题，而且需要经过多个轮次才能最终确定是什么语言，在前面轮次转写时只能采用语种的输出语言直接调用对应语音的语音识别系统进行转写，存在语种输出的语音精度不高的问题，同时面对简单的语音文字语种存在输出幻觉的问题。

4、需要说明的是，上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、针对现有技术中的问题，本技术的目的在于提供一种呼叫中心的多语言语音识别方法、系统、设备及存储介质，提供了一种用于呼叫中心的能自动识别多种语言语音的多语言服务。

2、本技术实施例提供一种呼叫中心的多语言语音识别方法，包括如下步骤：

3、获取样本音频，提取所述样本音频的音频特征，并基于多种语言的发音字典得到所述样本音频的第一音素数据，确定所述样本音频的第一音素标签，所述第一音素数据包括所述音频特征对应的单音素，且所述单音素包括字母音素和语种标识音素；

4、基于所述样本音频的音频特征和所述样本音频的第一音素标签训练三音素模型，基于训练好的三音素模型获取所述样本音频的第二音素数据，确定所述样本音频的第二音素标签，所述第二音素数据包括每一帧音频特征对应的三音素和状态类别；

5、基于所述样本音频的音频特征和所述样本音频的第二音素标签训练第一声学模型，基于训练好的第一声学模型获取所述样本音频的第三音素数据，确定所述样本音频的第三音素标签，所述第三音素数据包括每一帧音频特征对应的三音素；

6、基于所述样本音频的音频特征和所述样本音频的第三音素标签训练第二声学模型，获得训练好的第二声学模型；

7、获取待识别音频，提取所述待识别音频的音频特征，将所述待识别音频的音频特征输入所述第二声学模型中，获取所述待识别音频的预测音素数据，所述预测音素数据包括所述待识别音频的每一帧音频特征对应的三音素；

8、对所述待识别音频的预测音素数据进行解码，得到所述待识别音频对应的文本。

9、在一些实施例中，所述基于多种语言的发音字典得到所述样本音频的第一音素数据之前，还包括如下步骤：

10、基于多种语言的发音规则构建多种语言的发音字典；

11、通过词转音素算法模型预测各种语言中的外词音素，对各种语言的所述发音字典进行补充。

12、在一些实施例中，提取所述样本音频的音频特征，包括提取所述样本音频的mfcc特征和pitch特征，并将所述mfcc特征和pitch特征进行拼接作为所述样本音频的音频特征；

13、提取所述待识别音频的音频特征，包括提取所述待识别音频的mfcc特征和pitch特征，并将所述mfcc特征和pitch特征进行拼接作为所述待识别音频的音频特征。

14、在一些实施例中，基于所述样本音频的音频特征和所述样本音频的第一音素标签训练三音素模型，包括如下步骤：

15、基于所述样本音频的音频特征和所述样本音频的第一音素标签训练单音素模型，获取所述样本音频的单音素模型预测结果；

16、基于所述样本音频的音频特征和所述样本音频的单音素模型预测结果训练三音素模型。

17、在一些实施例中，基于所述样本音频的音频特征和所述样本音频的单音素模型预测结果训练三音素模型，包括如下步骤：

18、基于说话者身份识别模型获取所述样本音频对应的说话者身份标识；

19、基于所述样本音频的音频特征、所述样本音频的单音素模型预测结果和说话者身份标识训练三音素模型。

20、在一些实施例中，所述第一声学模型和所述第二声学模型分别为基于残差因式分解时延神经网络的声学模型。

21、在一些实施例中，基于所述样本音频的音频特征和所述样本音频的第二音素标签训练第一声学模型，包括如下步骤：

22、基于所述样本音频的音频特征和所述样本音频的第二音素标签，采用交叉熵损失函数对所述第一声学模型进行训练。

23、在一些实施例中，基于所述样本音频的音频特征和所述样本音频的第三音素标签训练第二声学模型，获得训练好的第二声学模型，包括如下步骤：

24、基于所述样本音频的音频特征和所述样本音频的第三音素标签，采用交叉熵损失函数对所述第二声学模型进行第一轮训练，得到第一轮训练后的第二声学模型；

25、基于所述样本音频的音频特征和所述样本音频的第三音素标签，采用lf-mmi准则和smbr准则对第一轮训练后的第二声学模型进行第二轮训练，得到训练好的第二声学模型。

26、本技术实施例还提供一种呼叫中心的多语言语音识别系统，用于实现所述的呼叫中心的多语言语音识别方法，所述系统包括：

27、数据准备模块，用于获取样本音频，提取所述样本音频的音频特征，并基于多种语言的发音字典得到所述样本音频的第一音素数据，确定所述样本音频的第一音素标签，所述第一音素数据包括所述音频特征对应的单音素，且所述单音素包括字母音素和语种标识音素；

28、标签获取模块，用于基于所述样本音频的音频特征和所述样本音频的第一音素标签训练三音素模型，基于训练好的三音素模型获取所述样本音频的第二音素数据，确定所述样本音频的第二音素标签，所述第二音素数据包括每一帧音频特征对应的三音素和状态类别；

29、模型训练模块，用于基于所述样本音频的音频特征和所述样本音频的第二音素标签训练第一声学模型，基于训练好的第一声学模型获取所述样本音频的第三音素数据，确定所述样本音频的第三音素标签，所述第三音素数据包括每一帧音频特征对应的三音素；以及基于所述样本音频的音频特征和所述样本音频的第三音素标签训练第二声学模型，获得训练好的第二声学模型；

30、语音识别模块，用于获取待识别音频，提取所述待识别音频的音频特征，将所述待识别音频的音频特征输入所述第二声学模型中，获取所述待识别音频的预测音素数据，所述预测音素数据包括所述待识别音频的每一帧音频特征对应的三音素；以及对所述待识别音频的预测音素数据进行解码，得到所述待识别音频对应的文本。

31、本技术实施例还提供一种呼叫中心的多语言语音识别设备，包括：

32、处理器；

33、存储器，其中存储有所述处理器的可执行指令；

34、其中，所述处理器配置为经由执行所述可执行指令来执行所述的呼叫中心的多语言语音识别方法的步骤。

35、本技术实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的呼叫中心的多语言语音识别方法的步骤。

36、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

37、本技术的呼叫中心的多语言语音识别方法、系统、设备及存储介质具有如下有益效果：

38、本技术在模型训练阶段，采用发音字典得到第一音素数据以训练三音素模型，第一音素数据包括字母音素和语种标识音素，并通过三音素模型得到第二音素数据，设计了第一声学模型和第二声学模型，第一声学模型训练好后得到的第三音素数据用于优化训练第二声学模型，从而可以得到更准确的声学模型，在进行音频识别时，将待识别音频输入到第二声学模型中即可获得用于解码的预测音素数据，提高了多语言语音识别的准确性，模型架构简单，有利于提高客服质检工作的效率和准确性。