技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音分离的方法、装置、终端设备及存储介质与流程 > 正文

语音分离的方法、装置、终端设备及存储介质与流程

国知局
2024-06-21 11:26:35

本发明涉及金融科技，尤其涉及一种语音分离的方法、装置、终端设备及存储介质。

背景技术：

1、近年来，基于语音的信息处理技术得到了迅猛的发展并具有广泛的应用。其中比较重要的是基于语音对说话人进行识别的技术，这被称为说话人识别，从而得到与说话人身份相匹配的音频数据。例如，说话人识别可应用于对说话人的身份进行确认的场合。

2、目前，通常会对说话人的音频进行采集，并识别所采集音频中的说话人的声纹特征，从而得到相应的说话人的身份。例如，一个典型的使用场景是语音会议纪要。在这个应用场景下，首先第一步就是要从会议录音中，把各个参会人说的话分离开，之后才能进行进一步分析。又比如在平安寿险智能客服业务中，一通通话数据中包含客服和客户两个角色，若要分析对话的过程中每个角色的说话内容，就需要进行说话人分离。

3、现有的说话人分离系统，处理高品质的实验室录音时效果很不错，但面对实际场景的数据时，效果比较一般。这是因为实际场景的数据远比录音室录音复杂，经常出现多人说话且无明显停顿，甚至多人同时说话、抢话的情况。在这些情况下，说话人分离的效果会明显下降，精度难以满足实际业务的要求。

4、因此，在复杂环境下，比较快速、准确地分离不用方位的多个说话人的音频信号，是当前亟待解决的技术问题。

技术实现思路

1、本发明实施例的主要目的在于提供一种语音分离的方法、装置、终端设备及存储介质，旨在解决在收集保险音频过程中同一音频中出现业务员和客户同时说话、抢话的等复杂情况时，语音分割的效果较差，语音分割的精度难以满足实际业务的要求的问题。

2、第一方面，本发明实施例提供一种语音分离的方法，包括：

3、从原始语音数据中获取目标语音数据，并将所述目标语音数据进行切割获得多个语音片段；

4、对每个所述语音片段进行至少两次语音特征提取操作，获得每个所述语音片段对应的目标语音特征并根据所述目标语音特征构成语音特征集合；

5、计算所述语音特征集合中相邻所述目标语音特征之间的相似度信息；

6、根据所述相似度信息进行数据拟合确定所述语音片段的目标语音分割点，并根据所述目标语音分割点对所述语音片段进行语音分割。

7、第二方面，本发明实施例提供一种语音分离的装置，包括：

8、数据获取模块，用于从原始语音数据中获取目标语音数据，并将所述目标语音数据进行切割获得多个语音片段；

9、特征抽取模块，用于对每个所述语音片段进行至少两次语音特征提取操作，获得每个所述语音片段对应的目标语音特征并根据所述目标语音特征构成语音特征集合；

10、数据分析模块，用于计算所述语音特征集合中相邻所述目标语音特征之间的相似度信息；

11、数据分割模块，用于根据所述相似度信息进行数据拟合确定所述语音片段的目标语音分割点，并根据所述目标语音分割点对所述语音片段进行语音分割。

12、第三方面，本发明实施例还提供一种终端设备，所述终端设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，其中所述计算机程序被所述处理器执行时，实现如本发明说明书提供的任一项语音分离的方法的步骤。

13、第四方面，本发明实施例还提供一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如本发明说明书提供的任一项语音分离的方法的步骤。

14、本发明实施例提供一种语音分离的方法、装置、终端设备及存储介质，该方法包括将原始语音数据进行预处理获取目标语音数据，并将目标语音数据进行切割获得多个语音片段；进而对每个语音片段进行至少两次语音特征提取操作，获得每个语音片段对应的目标语音特征并根据目标语音特征构成语音特征集合；计算语音特征集合中相邻目标语音特征之间的相似度信息；根据相似度信息进行数据拟合确定语音片段的目标语音分割点，并根据目标语音分割点对语音片段进行语音分割获得分割后的语音数据。解决在收集保险音频过程中同一音频中出现业务员和客户同时说话、抢话的等复杂情况时，语音分割的效果较差，语音分割的精度难以满足实际业务的要求的问题，提高了语音分割的速度和精准度，在满足语音分离需求的同时，也为后续针对语音分离结果进行数据推荐等应用提供了支撑。

技术特征：

1.一种语音分离的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从原始语音数据中获取目标语音数据，并将所述目标语音数据进行切割获得多个语音片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述对每个所述语音片段进行至少两次语音特征提取操作，获得每个所述语音片段对应的目标语音特征并根据所述目标语音特征构成语音特征集合，包括：

4.根据权利要求1所述的方法，其特征在于，计算所述语音特征集合中相邻所述目标语音特征之间的相似度信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述相似度信息进行数据拟合确定所述语音片段的目标语音分割点，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音分割点对所述语音片段进行语音分割，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述目标子语音进行聚类分析，进而获得聚类结果，并根据所述聚类结果对所述语音片段进行语音分割，包括：

8.一种语音分离的装置，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述的语音分离的方法的步骤。

技术总结本发明实施例提供一种语音分离的方法、装置、终端设备及存储介质，属于金融科技技术领域。该方法包括：从原始语音数据中获取目标语音数据，并将目标语音数据进行切割获得多个语音片段；对每个语音片段进行至少两次语音特征提取操作，获得每个语音片段对应的目标语音特征并根据目标语音特征构成语音特征集合；计算语音特征集合中相邻目标语音特征之间的相似度信息；根据相似度信息进行数据拟合确定语音片段的目标语音分割点，并根据目标语音分割点对语音片段进行语音分割。从而利用相邻两次语音特征提取操作所获取的目标语音特征之间的相似度信息确定语音分割点，进而实现了语音数据的分割，提高了语音分割的效率和准确率。技术研发人员：赵梦原,王健宗,程宁受保护的技术使用者：平安创科科技（北京）有限公司技术研发日：技术公布日：2024/2/6