技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多人交叉场景的单通道语音识别方法、系统、设备及介质与流程 > 正文

多人交叉场景的单通道语音识别方法、系统、设备及介质与流程

国知局
2024-06-21 11:55:43

所属的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。下面参照图6来描述根据本技术的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述多人交叉场景的单通道语音识别方法部分中描述的根据本技术各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。所述多人交叉场景的单通道语音识别设备中，所述存储器中的程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤，因此，所述设备也可以获得上述多人交叉场景的单通道语音识别方法的技术效果。本技术实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤。在一些可能的实施方式中，本技术的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上执行时，所述程序代码用于使所述终端设备执行本说明书上述多人交叉场景的单通道语音识别方法部分中描述的根据本技术各种示例性实施方式的步骤。参考图7所示，描述了根据本技术的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上执行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。所述计算机存储介质中的程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤，因此，所述计算机存储介质也可以获得上述多人交叉场景的单通道语音识别方法的技术效果。以上内容是结合具体的优选实施方式对本技术所作的进一步详细说明，不能认定本技术的具体实施只局限于这些说明。对于本技术所属的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本技术的保护范围。

背景技术：

1、在酒店住宿场景中，客人与酒店客服通过电话进行沟通，语音识别系统需要识别出客人或者酒店客服各自表达的语音信息。这种多说话人交叉场景存在语音为低采样率8khz的电话语音，以及多说话人语音存储在同一声道的情况，系统需要准确地识别出当前的说话人以及说话人表达的语音信息。但在这种单声道语音转写过程中，双方相互交叉说话，存在常规语音切割方法无法准确切割，导致说话人识别上存在误差，进而导致asr(automatic speech recognition，自动语音识别)准确率下降的问题。

2、目前在低采样率8khz的单声道多说话人交叉场景中，实现多说话人的语音识别以及人声拆解，尚没有较为成熟且完备的方法，一般利用vad(voice activity detection，语音活性检测)技术或者说话人分割聚类技术进行切割后进行语音转写，常用的方法有：

3、(1)利用过零率法、短时能量或者帧级别分类的vad技术进行切割后进行语音识别，在信噪比较高的场景下，过零率法以及短时能量vad技术的效果很好，但在酒店场景，特别是多说话人交叉场景下，低采样率的电话语音以及用户或者酒店方在通话时存在噪音、背景音以及较低概率的说话重叠情况，较低的信噪比以及复杂的多说话人场景导致该方法难以对语音进行准确的切割，进而影响后续asr(automatic speech recognition，语音识别技术)的识别效果。

4、(2)利用说话人分割聚类技术在多说话人交叉的语音场景下进行说话人分割后进行语音识别。首先对语音进行重叠等分切割后、提取对应的声纹特征，利用相似度矩阵判断不同切片后的相似度，进而判断每句话的起始时间以及结束时间，并对其说话人进行识别。但由于难以确定语音切分时长，过长或过短的语音片段都会导致无法准确判断对应的说话人，进而影响后续对asr转写结果的判断。

5、综上，现有的在多说话人交叉场景下的语音信息识别技术在实际多用户单声道场景下的使用主要存在以下的技术难点：(1)分割的帧级别人声识别不准问题。(2)单声道中同说话人、不同说话人的相邻近说话无法正确分割的问题。(3)单声道通过静音较难准确切割的问题。(4)单声道转写过程中多个模块存在的时延问题。

6、需要说明的是，上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、针对现有技术中的问题，本技术的目的在于提供一种多人交叉场景的单通道语音识别方法、系统、设备及介质，提高了在多人交叉场景下对每个说话人的语音文本识别精度。

2、本技术实施例提供一种多人交叉场景的单通道语音识别方法，包括如下步骤：

3、获取待识别的语音数据；

4、基于语音活性检测网络对所述待识别的语音数据进行分割，得到多个语音片段；

5、基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类，得到各个说话人的语音片段集合，将各个说话人的语音片段进行拼接，得到各个说话人的语音片段流；

6、基于各个说话人的身份信息和语音片段流生成语音识别任务；

7、分别执行所述语音识别任务，对所述语音片段流进行语音识别，得到识别后的文本。

8、在一些实施例中，所述语音活性检测网络基于深度学习网络构建。

9、在一些实施例中，所述基于语音活性检测网络对所述待识别的语音数据进行分割，得到多个语音片段，包括如下步骤：

10、以所述待识别的语音中每一帧作为一个识别单元，依次将每一帧和相邻两帧输入所述语音活性检测网络，获取所述语音活性检测网络的端点检测结果，所述端点检测结果包括当前帧是否为静音帧的概率；

11、将所述端点检测结果中概率大于预设概率阈值的帧作为静音帧，统计连续静音帧的数量，将连续静音帧的数量大于预设数量阈值的位置作为分割位置；

12、基于所述分割位置对所述待识别的语音数据进行分割，得到多个语音片段。

13、在一些实施例中，所述说话人分割聚类网络基于长短时记忆网络构建。

14、在一些实施例中，所述基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类，得到各个说话人的语音片段集合，将各个说话人的语音片段进行拼接，得到各个说话人的语音片段流，包括如下步骤：

15、将所述语音片段输入所述说话人分割聚类网络，基于所述语音片段的语音特征，利用滑动窗寻找所述语音片段中的说话人变更点；

16、基于说话人变更点对所述语音片段进行进一步切割；

17、将具有相似语音特征的语音片段作为同一个说话人的语音片段进行聚合；

18、将各个说话人的语音片段按照时间顺序进行拼接，得到各个说话人的语音片段流。

19、在一些实施例中，所述基于各个说话人的身份信息和语音片段流生成语音识别任务之后，还包括如下步骤：

20、将执行所述语音识别任务的请求写入消费队列，所述请求包括所述说话人的身份信息。

21、在一些实施例中，所述分别执行所述语音识别任务，对所述语音片段流进行语音识别，得到识别后的文本，包括如下步骤：

22、从所述消费队列中依次取出所述语音识别任务的语音片段流进行语音识别，得到识别后的文本。

23、本技术实施例还提供一种多人交叉场景的单通道语音识别系统，用于实现所述的多人交叉场景的单通道语音识别方法，所述系统包括：

24、语音获取模块，用于获取待识别的语音数据；

25、语音分割模块，用于基于语音活性检测网络对所述待识别的语音数据进行分割，得到多个语音片段；以及基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类，得到各个说话人的语音片段集合，将各个说话人的语音片段进行拼接，得到各个说话人的语音片段流；

26、任务生成模块，用于基于各个说话人的身份信息和语音片段流生成语音识别任务；

27、语音识别模块，用于分别执行所述语音识别任务，对所述语音片段流进行语音识别，得到识别后的文本。

28、本技术实施例还提供一种多人交叉场景的单通道语音识别设备，包括：

29、处理器；

30、存储器，其中存储有所述处理器的可执行指令；

31、其中，所述处理器配置为经由执行所述可执行指令来执行所述的多人交叉场景的单通道语音识别方法的步骤。

32、本技术实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤。

33、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

34、本技术的多人交叉场景的单通道语音识别方法、系统、设备及介质具有如下有益效果：

35、通过采用本技术的多人交叉场景的单通道语音识别方法，在获取到待识别的语音后，首先基于语音活性检测网络来对语音数据进行第一次分割，然后通过说话人分割聚类网络来对语音数据进行第二次分割，可以实现精确地人生拆解，对说话人及其语音进行有效地识别，并根据说话人进行聚合，然后对分割后的语音片段流分别进行语音识别，从而可以得到对应于各个说话人的语音识别文本。本技术可以解决在多人交叉谈话的场景中对不同说话人的语音分别进行识别得到对应文本的问题，例如解决客人及酒店前台语音信息提取识别困难的问题，提高了多人交叉谈话场景中的语音识别准确性。