基于语音数据的角色分离方法和装置、设备、介质与流程

2022-11-23 16:08:09 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及一种基于语音数据的角色分离方法和装置、设备、介质。

背景技术：

2.目前，在通话领域中，经常需要对通话的双方/多方进行区分。只有对语音中的文本进行正确的区分，才能在后续的自然语言处理的任务中，取得较好的效果。例如，如果在语音中，将客户的话误分为坐席的话，那对于评判坐席的话术合规度有一定的冲击力。因此，如何提供一种基于语音数据的角色分离方法，能够提高角色分离的分离准确率，成为了亟待解决的技术问题。

技术实现要素：

3.本技术实施例的主要目的在于提出一种基于语音数据的角色分离方法和装置、设备、介质，能够提高角色分离的分离准确率。
4.为实现上述目的，本技术实施例的第一方面提出了一种基于语音数据的角色分离方法，所述方法包括：
5.获取待处理语音数据，所述待处理语音数据包含至少两个角色的语音数据；
6.对所述待处理语音数据进行预处理，以得到多个语音段；
7.对每个所述语音段进行声纹识别，以得到每个所述语音段的声纹向量；
8.将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，以得到每个所述语音段的文本向量；
9.对同属于一个语音段的所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量；
10.将得到的多个初步融合向量输入预设的神经网络模型，所述神经网络模型基于注意力机制为每个所述初步融合向量计算对应的向量权重，以得到多个目标融合向量；
11.根据多个所述目标融合向量和所述神经网络模型确定所述待处理语音数据的角色分离结果。
12.在一些实施例，所述将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，以得到每个所述语音段的文本向量，包括：
13.将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，以得到初步文本向量；
14.根据得到的多个初步文本向量构建向量矩阵，并通过所述向量矩阵确定每个所述初步文本向量的邻近初步文本向量；
15.计算每个所述初步文本向量与所述邻近初步文本向量的相似度；
16.根据所述相似度为所述初步文本向量施加权重，以得到每个所述语音段的文本向量。
17.在一些实施例，所述将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，以得到每个所述语音段的文本向量，包括：
18.将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，得到每个所述语音段的初步文本向量；
19.将所述文本段输入至预设的文本规整模型，所述文本规整模型基于语法规则对所述文本段的词语成分进行规整，得到初步文本段；
20.计算所述文本段与所述初步文本段的相似度；
21.根据所述相似度为所述初步文本向量施加权重，以得到每个所述语音段的文本向量。
22.在一些实施例，所述对同属于一个语音段的所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量，包括：
23.对同属于一个语音段的所述声纹向量和所述文本向量进行向量拼接，以得到初步融合向量；
24.或，
25.对同属于一个语音段的所述声纹向量和所述文本向量进行向量求和，再对求和结果取平均值，以得到初步融合向量。
26.在一些实施例，所述对同属于一个语音段的所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量，包括：
27.计算每个所述语音段的语音时长；
28.计算每个所述文本段的文字数量；
29.根据同属于一个所述语音段的所述语音时长和所述文字数量确定单字持续时长向量；
30.对同属于一个语音段的所述单字持续时长向量、所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量。
31.在一些实施例，所述对同属于一个语音段的所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量，包括：
32.获取所述声纹向量的原始声纹维度，以及获取所述文本向量的原始文本维度；
33.若所述原始声纹维度与所述原始文本维度不同，则通过预设的线性变换方法对所述原始声纹维度和原始文本维度进行处理，以获得目标维度；
34.根据所述目标维度更新所述声纹向量的维度，以得到目标声纹向量；
35.根据所述目标维度更新所述文本向量的维度，以得到目标文本向量；
36.根据所述目标声纹向量和所述目标文本向量得到初步融合向量。
37.在一些实施例，所述神经网络模型包括mlp全连接层和softmax层，所述根据多个所述目标融合向量和所述神经网络模型确定角色分离结果，包括：
38.通过所述mlp全连接层将每个所述目标融合向量映射到n分类中，以得到分类结果，n为正整数；
39.通过所述softmax层对所述分类结果进行概率值计算，以得到每个分类结果中的n个概率值；
40.根据n个所述概率值确定每个所述语音段的角色，以得到所述待处理语音数据的
角色分离结果。
41.为实现上述目的，本技术实施例的第二方面提出了一种基于语音数据的角色分离装置，所述装置包括：
42.获取模块，用于获取待处理语音数据，所述待处理语音数据包含至少两个角色的语音数据；
43.预处理模块，用于对所述待处理语音数据进行预处理，以得到多个语音段；
44.声纹提取模块，用于对每个所述语音段进行声纹识别，以得到每个所述语音段的声纹向量；
45.文本提取模块，用于将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，以得到每个所述语音段的文本向量；
46.向量计算模块，用于对同属于一个语音段的所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量；
47.权重计算模块，用于将得到的多个初步融合向量输入预设的神经网络模型，所述神经网络模型基于注意力机制为每个所述初步融合向量计算向量权重，以得到多个目标融合向量；
48.角色分离模块，用于根据多个所述目标融合向量和所述神经网络模型确定所述待处理语音数据的角色分离结果。
49.为实现上述目的，本技术实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现上述第一方面所述的方法。
50.为实现上述目的，本技术实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面所述的方法。
51.本技术提出的一种基于语音数据的角色分离方法和装置、设备、介质，通过提取每个语音段的声纹向量和文本向量能够确定该语音段的初步融合向量，该初步融合向量既包括了语音段的声纹信息，还包括了语音段的语义信息。将初步融合向量输入至预设的神经网络模型，神经网络模型基于注意力机制为每个初步融合向量计算向量权重，以得到多个目标融合向量，再通过目标融合向量和神经网络模型得到待处理语音数据的分离结果。本技术实施例通过语音数据的文本向量、声纹向量和神经网络模型的注意力机制的共同作用实现角色分离，本技术实施例具体包括以下优点：一是，多增加了文本信息，扩充了信息来源途径。二是，依据注意力机制，更好地实现角色分离任务。
附图说明
52.图1是本技术实施例提供的一种基于语音数据的角色分离方法的流程图；
53.图2是图1中的步骤s140的流程图；
54.图3是图1中的步骤s140的流程图；
55.图4是图1中的步骤s150的流程图；
56.图5是图1中的步骤s150的流程图；
57.图6是本技术实施例提供的一种基于语音数据的角色分离装置的模块结构框图；
58.图7是本技术实施例提供的计算机设备的硬件结构示意图。
具体实施方式
59.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
60.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
61.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
62.首先，对本技术中涉及的若干名词进行解析：
63.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
64.自然语言处理(natural language processing，nlp)：nlp用计算机来处理、理解以及运用人类语言(如中文、英文等)，nlp属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息图像处理、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
65.信息抽取(information extraction，ner)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。
66.语料：即语言材料，语料是构成语料库的基本单元，通常是一定数量和规模的文本资源集合。语料规模可大可小，大至千万，甚至数亿句或更大，小至几百句。人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。可以把一个文本集合称为语料库，当有几个这样的文本集合的时候，可称之为语料库集合。互联
网本身就是一个巨大庞杂的语料库。语料根据不同标准可以有很多分类，比如，语料可以是单语语料，也可以是多语种语料。
67.bert模型(bidirectional encoder representations from transformers，bert)：是一种基于transformers架构以及编码器的深度学习模型。bert模型在经过无标注的训练数据预训练后，只需要在应用到具体的下游处理任务之前，针对具体的下游处理任务使用相应的样本数据来进行少量训练，即可具有处理下游处理任务的能力，bert模型这一特点很适合应用到自然语言处理(nlp，natural language processing)等领域。
68.目前，在通话领域中，经常需要对通话的双方/多方进行区分。只有对语音中的文本进行正确的区分，才能在后续的自然语言处理的任务中，取得较好的效果。例如，如果在语音中，将客户的话误分为坐席的话，那对于评判坐席的话术合规度有一定的冲击力。在相关技术中，考虑到每个人说话的声音存在不同，一般是通过语音中的声纹向量对语音中的角色进行分离。但若语音中的角色说话声音相似，即存在不同的角色但声纹向量相近的情况，因而仅仅通过声纹向量实现角色分离的准确性不够高，存在误判的可能性。因此，如何提供一种基于语音数据的角色分离方法，能够提高角色分离的分离准确率，成为了亟待解决的技术问题。
69.基于此，本技术实施例的主要目的在于提出一种基于语音数据的角色分离方法和装置、设备、介质，旨在通过语音数据的文本向量、声纹向量和神经网络模型的注意力机制的共同作用实现角色分离，本实施例能够提高角色分离的分离准确率。
70.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
71.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
72.本技术实施例提供的一种基于语音数据的角色分离方法，涉及人工智能技术领域。本技术实施例提供的一种基于语音数据的角色分离方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现一种基于语音数据的角色分离方法的应用等，但并不局限于以上形式。
73.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例
程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
74.本技术实施例提供一种基于语音数据的角色分离方法和装置、设备、介质，具体通过如下实施例进行说明，首先描述本技术实施例中的一种基于语音数据的角色分离方法。
75.图1是本技术实施例提供的一种基于语音数据的角色分离方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤s110至步骤s170。
76.步骤s110，获取待处理语音数据，待处理语音数据包含至少两个角色的语音数据；
77.步骤s120，对待处理语音数据进行预处理，以得到多个语音段；
78.步骤s130，对每个语音段进行声纹识别，以得到每个语音段的声纹向量；
79.步骤s140，将每个语音段转换为文本段，并对每个文本段进行语义识别，以得到每个语音段的文本向量；
80.步骤s150，对同属于一个语音段的声纹向量和文本向量进行向量计算，以得到初步融合向量；
81.步骤s160，将得到的多个初步融合向量输入预设的神经网络模型，神经网络模型基于注意力机制为每个初步融合向量计算向量权重，以得到多个目标融合向量；
82.步骤s170，根据多个目标融合向量和神经网络模型确定待处理语音数据的角色分离结果。
83.本技术实施例所示意的步骤s110至步骤s170，通过语音数据的文本向量、声纹向量和神经网络模型的注意力机制的共同作用实现角色分离，本实施例能够提高角色分离的分离准确率。具体的，通过提取每个语音段的声纹向量和文本向量能够确定该语音段的初步融合向量，该初步融合向量既包括了语音段对应的声纹信息，还包括了语音段对应的语义信息。需要说明的是，每个语音段至少包括一个句子。将初步融合向量输入至预设的神经网络模型，神经网络模型基于注意力机制为每个初步融合向量计算向量权重，以得到多个目标融合向量，再通过目标融合向量和神经网络模型得到待处理语音数据的分离结果。例如将初步融合向量输入至transformer的encoder中，transformer的encoder利用了attention机制(注意力机制)，可以将每个语音段的初步融合向量与多个语音段的初步融合向量做计算，得到向量权重，理论上对于相似的句子，权重值会偏高，有助于提高分离角色的准确率。可以理解的是，本技术实施例可以结合语音和文本的信息，针对整个通话的信息来进行角色分离任务的实现。有以下优点：一是，多增加了文本信息，扩充了信息来源途径。二是，依据attention机制，更好地实现角色分离任务。需要说明的是，attention机制是一种根据某些规则或者某些额外信息从向量表达集合中抽取特定的向量进行加权组合的方法，通过对不同词向量赋予不同的权重来加强对某些重要词的关注程度。在本技术实施例中是依据attention机制对不同的初步融合向量(句向量)进行权重计算，得到目标融合向量。
84.在一些实施例的步骤s110中，待处理语音数据是指包含至少两个角色的语音数据，可以从现有的语料中直接获取待处理语音数据，另外，也可以对语音数据进行采集得到待处理语音数据。可以理解的是，对语音数据的采集可以通过麦克风现场采集，也可以通过录音设备采集，当然，也可以通过通讯设备比如移动电话远程采集。
85.在一些实施例的步骤s120中，对待处理语音数据进行预处理，以得到多个语音段。一般待处理语音数据对应的是整个通话的语音数据，里面包含至少两个角色，并且里面包括很多停顿和噪声等。通过对待处理语音数据进行预处理，具体包括对待处理语音数据进行分段，以得到多个初步语音段；去除文本长度小于3个字的初步语音段、转文本后出现乱码的初步语音段、录音时长低于3秒的初步语音段、单字平均时长小于0.1秒的初步语音段，以得到多个语音段。
86.在一些实施例的步骤s130中，对每个语音段进行声纹识别，以得到每个语音段的声纹向量。具体的，通过预设的声纹模型对每个语音段进行声纹识别得到声纹向量。例如通过xvector模型提取出每个语音段的声纹向量，该声纹向量的原始维度为1
×
512。可以理解的是，预设的声纹模型还可以是高斯混合模型、隐马尔可夫模型、动态时间规整模型、向量化模型等，对此本技术实施例不做限定。也可通过构建声纹模型实现声纹向量的提取，例如，首先提取语音数据的声纹特征，再基于声学特征构建声纹模型，如基于说话人因子向量构建声纹模型。
87.在一些实施例的步骤s140中，将每个语音段转换为文本段，并对每个文本段进行语义识别，以得到每个语音段的文本向量。具体的，每个文本段至少对应一个句子，每个语音段的文本向量也可称为初步句向量。可通过预设的语义识别模型对每个文本进行初步句向量的提取。例如，通过预训练神经网络模型(bert模型)对文本段进行初步句向量的提取，该初步句向量的原始维度为1
×
768。
88.具体的，参照图2，在一些实施例中，步骤s140包括但不限于包括步骤s210至步骤s240：
89.步骤s210，将每个语音段转换为文本段，并对每个文本段进行语义识别，以得到初步文本向量；
90.步骤s220，根据得到的多个初步文本向量构建向量矩阵，并通过向量矩阵确定每个初步文本向量的邻近初步文本向量；
91.步骤s230，计算每个初步文本向量与邻近初步文本向量的相似度；
92.步骤s240，根据相似度为初步文本向量施加权重，以得到每个语音段对应的文本向量。
93.本技术实施例所示意的步骤s210至步骤s240，考虑到多个初步文本向量之间的上下位语义信息，将多个初步文本向量映射至向量矩阵中，其中，该向量矩阵的维度可根据实际需求进行设置，本技术实施例不作具体限定。通过向量矩阵可以确定每个初步文本向量的邻近初步文本，并计算每个初步文本向量与邻近初步文本向量的相似度，可通过相似度的大小确定每个初步文本向量与邻近初步文本向量的语义关联程度，根据相似度为初步文本向量施加权重，最终得到每个语音段的文本向量。在实际应用中，可根据得到的相似度的大小按比例为初步文本向量施加权重，具体的权重数值本技术实施例不作具体限定。
94.具体的，参照图3，在一些实施例中，步骤s140包括但不限于包括步骤s310至步骤s340：
95.步骤s310，将每个语音段转换为文本段，并对每个文本段进行语义识别，得到每个语音段的初步文本向量；
96.步骤s320，将文本段输入至预设的文本规整模型，文本规整模型基于语法规则对
文本段的词语成分进行规整，得到初步文本段；
97.步骤s330，计算文本段与初步文本段的相似度；
98.步骤s340，根据相似度为初步文本向量施加权重，以得到每个语音段的文本向量。
99.本技术实施例所示意的步骤s310至步骤s340，考虑到每个角色说话时的语法习惯不同，可以通过预设的文本规整模型对文本段的语法结构进行识别，并重新生成新的文本段，即初步文本段。利用文本段与初步文本的相似度表示每个文本段基于标准语法结构的语法差异，因此，依据相似度为初步文本向量施加权重，目的是区分出不同角色的不同语法习惯。具体的，文本规整模型可以采用神经网络模型，例如包括：输入层、特征向量转化层、blstm层、分类器层、输出层。在一实际示例中，以待处理语音数据为包括客户和坐席的语音数据为例，将语音段转化为文本段后，一般坐席的文本段都是比较完整、语句通顺的，而客户的文本段比较残缺、语法混乱。例如，有以下两个文本段：“您还有需要办理的业务吗”和“a业务，想了解下”，通过文本规整模型对上述两个文本段进行规则后，对应得到以下两个初步文本段：“您还有需要办理的业务吗”和“想了解下a业务”，可以发现，第一个文本段和第一个初步文本段几乎无差别，计算得到的相似度值较高，而第二个文本段和第二初步文本段存在词语成分的顺序差异，计算得到的相似度值较低，因此，通过相似度为初步文本向量施加权重，有益于提高每个语音段的文本向量的信息表示能力，以便提高后续角色分离的准确率。
100.在一些实施例的步骤s150中，对同属于一个语音段的声纹向量和文本向量进行向量计算，以得到初步融合向量，具体包括如下步骤之一：
101.对同属于一个语音段的声纹向量和文本向量进行向量拼接，以得到初步融合向量；
102.或，对同属于一个语音段的声纹向量和文本向量进行向量求和，再对求和结果取平均值，以得到初步融合向量。
103.具体的，通过声纹向量和文本向量之间的融合得到初步融合向量，该初步融合向量既包括了语音段对应的声纹信息，还包括了语音段对应的语义信息。该初步融合信息有助于提高后续对语音数据的角色分离的准确率。
104.具体的，参照图4，在一些实施例中，步骤s150包括但不限于包括步骤s410至步骤s440：
105.步骤s410，计算每个语音段对应的语音时长；
106.步骤s420，计算每个文本段对应的文字数量；
107.步骤s430，根据同属于一个语音段的语音时长和文字数量确定单字持续时长向量；
108.步骤s440，对同属于一个语音段的单字持续时长向量、声纹向量和文本向量进行向量计算，以得到初步融合向量。
109.本技术实施例所示意的步骤s410至步骤s440，考虑到不同的角色说话特点，例如说话的停顿情况不同，本技术实施例利用单字持续时长向量表征不同的角色的说话特点，可以理解的是，将单字持续时长向量融入初步融合向量中，能提高初步融合向量的信息表示能力，进一步有助于提高后续角色分离的准确率。
110.具体的，参照图5，在一些实施例中，步骤s150包括但不限于包括步骤s510至步骤
s550：
111.步骤s510，获取声纹向量的原始声纹维度，以及获取文本向量的原始文本维度；
112.步骤s520，若原始声纹维度与原始文本维度不同，则通过预设的线性变换方法对原始声纹维度和原始文本维度进行处理，以获得目标维度；
113.步骤s530，根据目标维度更新声纹向量的维度，以得到目标声纹向量；
114.步骤s540，根据目标维度更新文本向量的维度，以得到目标文本向量；
115.步骤s550，根据目标声纹向量和目标文本向量得到初步融合向量。
116.本技术实施例所示意的步骤s510至步骤s550，考虑到向量之间计算过程中维度会对计算结果有所影响，因而在本技术实施例中通过线性变换方法对原始声纹维度和原始文本维度进行处理，以得到目标维度。例如，原始声纹维度为1
×
512，原始文本维度为1
×
768，可通过线性变换方法得到的目标维度为1
×
640，根据目标维度更新声纹向量的维度，得到的目标声纹向量的维度大小为目标维度。根据目标维度更新文本向量的维度，得到的目标文本向量的维度大小为目标维度。在实验中发现，将文本向量的维度和声纹向量的维度进行统一再进行向量计算，得到的初步融合向量更能表示出语音段的角色信息，有助于提高后续角色分离的准确率。
117.在一些实施例的步骤s160中，将得到的多个初步融合向量输入预设的神经网络模型，神经网络模型基于注意力机制为每个初步融合向量计算向量权重，以得到多个目标融合向量。具体的，注意力机制也称attention机制，是一种根据某些规则或者某些额外信息从向量表达集合中抽取特定的向量进行加权组合的方法，通过对不同词向量赋予不同的权重来加强对某些重要词的关注程度。在本技术实施例中的多个初步融合向量是由语音段对应的声纹向量和文本向量得到，所以该初步融合向量具体是指句向量，而不是词向量。本技术实施例通过引入attention机制将每个语音段的句向量与整个通话(待处理语音数据)的句向量做计算，得到句向量i和n个句向量的权重，进一步得到目标融合向量。需要说明的是，对于相似的句向量，权重值会偏高，所以对于分离角色的身份有益。
118.在一些实施例的步骤s170中，根据多个目标融合向量和神经网络模型确定待处理语音数据的角色分离结果，具体包括如下步骤：
119.通过mlp全连接层将每个目标融合向量映射到n分类中，以得到分类结果，n为正整数；
120.通过softmax层对分类结果进行概率值计算，以得到每个分类结果中的n个概率值；
121.根据n个概率值确定每个语音段的角色，以得到待处理语音数据的角色分离结果。
122.具体的，n为预设值，可根据实际需求进行设置。例如，若待处理语音数据包括两个角色，则n设置2。若待处理语音数据包括3个角色，则n设置为3。以n为2进行说明，通过mlp全连接层将每个目标融合向量映射到2分类中，分类结果包括两个角色信息，具体为[a，b]，a指角色a，b是指角色b。通过softmax层对分类结果进行概率值计算，以得到每个分类结果中的2个概率值，例如[0.6,0.4]。根据概率值最大所对应的角色确定当前语音段的角色，例如，在本实施例中概率值0.6对应的角色a确定当前语音段的角色，当待处理语音数据中的所有语音段的角色分离结束，得到待处理语音数据的角色分离结果。
[0123]
具体的，在一些实施例中，所述方法还包括但不限于包括以下步骤：
[0124]
计算n个概率值之间的概率差值，若概率差值小于预设的差值阈值，获取语音段的文本向量和声纹向量；
[0125]
将文本向量和声纹向量输入预设的神经网络模型，所述神经网络模型基于注意力机制为文本向量计算对应的向量权重，以得到权重文本向量，所述神经网络模型基于注意力机制为声纹向量计算对应的向量权重，以得到权重声纹向量，根据权重文本向量和权重声纹向量得到目标融合向量；
[0126]
通过mlp全连接层将每个目标融合向量映射到n分类中，以得到分类结果，n为正整数；
[0127]
通过softmax层对分类结果进行概率值计算，以得到每个分类结果中的n个概率值；
[0128]
根据n个概率值确定每个语音段的角色，以得到待处理语音数据的角色分离结果。
[0129]
可以理解的是，若概率差值小于预设的差值阈值，说明当前的角色分离效果不明显，角色分离不够准确。因此，在本技术实施例中，通过对语音段的文本向量和声纹向量进行单独的向量权重计算，可以进一步保留向量之间的相似信息，根据权重文本向量和权重声纹向量进行向量计算，得到的目标融合向量能够进一步提高角色分离的效果，提高语音数据的角色分离的准确率。
[0130]
请参阅图6，本技术实施例还提供一种基于语音数据的角色分离装置，可以实现上述一种基于语音数据的角色分离方法，图6为本技术实施例提供的一种基于语音数据的角色分离装置的模块结构框图，该装置包括：获取模块610、预处理模块620、声纹提取模块630、文本提取模块640、向量计算模块650、权重计算模块660、角色分离模块670。其中，获取模块610用于获取待处理语音数据，所述待处理语音数据包含至少两个角色的语音数据；预处理模块620用于对所述待处理语音数据进行预处理，以得到多个语音段；声纹提取模块630用于对每个所述语音段进行声纹识别，以得到每个所述语音段的声纹向量；文本提取模块640用于将每个所述语音段转换为文本段，并对每个所述文本段进行语义识别，以得到每个所述语音段的文本向量；向量计算模块650用于对同属于一个语音段的所述声纹向量和所述文本向量进行向量计算，以得到初步融合向量；权重计算模块660用于将得到的多个初步融合向量输入预设的神经网络模型，所述神经网络模型基于注意力机制为每个所述初步融合向量计算向量权重，以得到多个目标融合向量；角色分离模块670用于根据多个所述目标融合向量和所述神经网络模型确定所述待处理语音数据的角色分离结果。
[0131]
本技术实施例的一种基于语音数据的角色分离装置，能够通过语音数据的文本向量、声纹向量和神经网络模型的注意力机制的共同作用实现角色分离，本实施例能够提高角色分离的分离准确率。具体的，通过提取每个语音段的声纹向量和文本向量能够确定该语音段的初步融合向量，该初步融合向量既包括了语音段对应的声纹信息，还包括了语音段对应的语义信息。将初步融合向量输入至预设的神经网络模型，神经网络模型基于注意力机制为每个初步融合向量计算向量权重，以得到多个目标融合向量，再通过目标融合向量和神经网络模型得到待处理语音数据的分离结果。本技术实施例可以结合语音和文本的信息，针对整个通话的信息来进行角色分离任务的实现。有以下优点：一是，多增加了文本信息，扩充了信息来源途径。二是，依据attention机制，更好地实现角色分离任务。
[0132]
需要说明的是，该一种基于语音数据的角色分离装置的具体实施方式与上述一种
基于语音数据的角色分离方法的具体实施例基本相同，在此不再赘述。
[0133]
本技术实施例还提供了一种计算机设备，计算机设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述一种基于语音数据的角色分离方法。该计算机设备可以为包括平板电脑、车载电脑等任意智能终端。
[0134]
请参阅图7，图7示意了另一实施例的计算机设备的硬件结构，计算机设备包括：
[0135]
处理器701，可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案；
[0136]
存储器702，可以采用只读存储器(read only memory，rom)、静态存储设备、动态存储设备或者随机存取存储器(random access memory，ram)等形式实现。存储器702可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行本技术实施例的一种基于语音数据的角色分离方法；
[0137]
输入/输出接口703，用于实现信息输入及输出；
[0138]
通信接口704，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；
[0139]
总线705，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息；
[0140]
其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。
[0141]
本技术实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述一种基于语音数据的角色分离方法。
[0142]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0143]
本技术实施例提供的一种基于语音数据的角色分离方法、一种基于语音数据的角色分离装置、计算机设备及存储介质，能够通过语音数据的文本向量、声纹向量和神经网络模型的注意力机制的共同作用实现角色分离，本实施例能够提高角色分离的分离准确率。具体的，通过提取每个语音段的声纹向量和文本向量能够确定该语音段的初步融合向量，该初步融合向量既包括了语音段对应的声纹信息，还包括了语音段对应的语义信息。将初步融合向量输入至预设的神经网络模型，神经网络模型基于注意力机制为每个初步融合向量计算向量权重，以得到多个目标融合向量，再通过目标融合向量和神经网络模型得到待处理语音数据的分离结果。本技术实施例可以结合语音和文本的信息，针对整个通话的信息来进行角色分离任务的实现。有以下优点：一是，多增加了文本信息，扩充了信息来源途
径。二是，依据attention机制，更好地实现角色分离任务。可以理解的是，在本技术中的注意力机制与attention机制等同。
[0144]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
[0145]
本领域技术人员可以理解的是，图1-5中示出的技术方案并不构成对本技术实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
[0146]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0147]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0148]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0149]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
[0150]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0151]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0152]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0153]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
[0154]
以上参照附图说明了本技术实施例的优选实施例，并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本技术实施例的权利范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于交互的语音降噪方法、系统、电子设备和存储介质与流程

基于语音数据的角色分离方法和装置、设备、介质与流程

相关文献

最热文献