技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及其装置、电子设备、存储介质与流程 > 正文

语音识别方法及其装置、电子设备、存储介质与流程

国知局
2024-06-21 11:26:31

本申请实施例涉及语音识别领域，特别涉及一种语音识别方法及其装置、电子设备、存储介质。

背景技术：

1、在某些场景下需要对音频中的各个语音角色的类型进行判断，例如，在坐席质检场景中，需要针对坐席话术进行质检，通话和录音音频中通常会包括多个语音角色的语音数据，因此在对坐席语音进行质检之前，需要首先判断音频中的哪一段语音属于坐席，哪一段语音属于客户，在判断出属于坐席的语音片段后才能对这些语音片段进行后续的质检。但目前的语音识别方案仅能识别出一段音频中存在一个或多个语音角色，难以对语音角色的类型进行判断，例如，仅能识别出一段音频中存在两个语音角色，但不能识别出这两个语音角色中哪一个是坐席，哪一个是用户。

技术实现思路

1、本申请提供一种语音识别方法及其装置、电子设备、存储介质，能够准确识别出音频中不同语音角色的类型。

2、第一方面，本申请提供了一种语音识别方法，所述方法可以包括：

3、获取待处理音频中的至少一个语音角色以及所述语音角色对应的语音时段，每个语音角色用于表示所述待处理音频中的一个说话者；

4、识别所述待处理音频中的语音数据，并对所述语音数据进行时间定位，获得目标语音时段；

5、根据所述目标语音时段对所述每个语音角色对应的语音时段进行校正，获得所述每个语音角色对应的校正语音时段；

6、将所述每个语音角色的校正语音时段对应的语音数据转换为文本数据，得到所述每个语音角色的说话文本数据；并根据所述每个语音角色的说话文本数据，识别所述每个语音角色对应的角色类型，所述角色类型用于表示说话者的身份。

7、第二方面，本申请提供了一种语音识别装置，可以包括：

8、角色划分模块，用于获取待处理音频中的至少一个语音角色以及所述语音角色对应的语音时段，每个语音角色用于表示所述待处理音频中的一个说话者；

9、端点检测模块，用于识别所述待处理音频中的语音数据，并对所述语音数据进行时间定位，获得目标语音时段；

10、时段校正模块，用于根据所述目标语音时段对所述每个语音角色对应的语音时段进行校正，获得所述每个语音角色对应的校正语音时段；

11、角色识别模块，用于将所述每个语音角色的校正语音时段对应的语音数据转换为文本数据，得到所述每个语音角色的说话文本数据；并根据所述每个语音角色的说话文本数据，识别所述每个语音角色对应的角色类型，所述角色类型用于表示说话者的身份。

12、第三方面，本申请提供了一种电子设备，可以包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的语音识别方法。

16、第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述的语音识别方法。

17、本申请所提供的实施例能够获取音频中的语音角色，实现了对音频中的不同说话者的初步划分，然而对音频进行处理时未提取语音数据，从而使得获取的语音角色对应的帧数据可能包含非语音数据(即非语音角色对应的语音数据，例如噪音数据)，通过提取音频中的语音数据以及语音数据的语音时段，即目标语音时时段，再通过目标语音时段对语音角色对应的多帧数据的时段进行校正，能够从语音角色对应的多帧数据中筛选出语音数据，并获得这些语音数据对应的语音时段，即校正语音时段，提升了语音角色的有效时段的命中率，并且将该校正语音时段作为语音角色对应的语音时段，保证了该语音时段的准确性，为角色类型的准确识别提供了技术基础，并且，基于对语音角色对应的语音时段的准确划分，通过语音数据的文本转换以及文本数据的识别实现了对音频中不同角色类型的准确识别。

18、应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述获取待处理音频中的至少一个语音角色以及所述语音角色对应的语音时段，包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述识别所述待处理音频中的语音数据，并对所述语音数据进行时间定位，获得目标语音时段，包括：

4.根据权利要求2或3所述的语音识别方法，其特征在于，所述根据所述目标语音时段对所述每个语音角色对应的语音时段进行校正，获得所述每个语音角色对应的校正语音时段，包括：

5.根据权利要求2所述的语音识别方法，其特征在于，所述说话人分割与聚类模型的获得方式包括：

6.根据权利要求3所述的语音识别方法，其特征在于，所述语音端点检测模型的获得方式包括：

7.根据权利要求1所述的语音识别方法，其特征在于，所述将所述每个语音角色的校正语音时段对应的语音数据转换为文本数据，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的语音识别方法。

技术总结本申请提供了一种语音识别方法及其装置、电子设备、存储介质，该方法包括：获取音频中至少一个语音角色和语音角色对应的语音时段，每个语音角色用于表示音频中一个说话者；识别音频中每个语音数据，并对语音数据进行时间定位获得目标语音时段；根据目标语音时段对每个语音角色对应的语音时段进行校正获得每个语音角色对应的校正语音时段；将校正语音时段对应的语音数据转换为文本数据得到每个语音角色的说话文本数据；根据每个语音角色的说话文本数据，识别每个语音角色的角色类型，角色类型表示说话者的身份。根据本申请的实施例能够准确识别出音频中不同语音角色的角色类型。技术研发人员：孟庆林,蒋宁,吴海英,陆全,夏粉,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6