技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及装置、电子设备和计算机可读存储介质与流程 > 正文

语音识别方法及装置、电子设备和计算机可读存储介质与流程

国知局
2024-06-21 11:50:50

本公开涉及计算机技术和语音处理，更具体地，涉及一种语音识别方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、随着计算机技术的发展，语音识别技术应运而生。语音识别技术可以指机器通过识别和理解的过程，将语音信号转换为相应的文本或命令的技术。例如，可以将语音识别技术应用于质检。

2、质检可以指对对客服接听用户的电话所产生的电话录音文件进行语音识别和基于语音识别结果进行质检项目检测的过程，以便于确定客服地话术是否符合要求。但是，由于质检过程中来自于不同通道的语音可能存在重叠情况，导致识别的文本顺序与实际语音顺序存在不一致。

3、在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：在不同通道的语音存在重叠情况的场景下，难以清晰地展示语音识别结果，导致用户体验较差。

技术实现思路

1、有鉴于此，本公开提供了一种语音识别方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一个方面，提供了一种语音识别方法，包括：响应于接收到语音识别请求，对上述语音识别请求中的待识别语音进行处理，得到与第一语音通道对应的第一语音段和与第二语音通道对应的第二语音段；对上述第一语音段和上述第二语音段分别进行处理，得到至少一个第一语音语句和至少一个第二语音语句，其中，每个上述第一语音语句和每个上述第二语音语句各自对应有语音通道标识、起始时间和结束时间；根据上述起始时间，对上述至少一个第一语音语句和上述至少一个第二语音语句进行排序，得到初始排序结果；以及，根据上述语音通道标识和上述结束时间，对上述初始排序结果进行处理，得到语音识别结果。

3、根据本公开的实施例，上述根据上述起始时间，对上述至少一个第一语音语句和上述至少一个第二语音语句进行排序，得到初始排序结果包括：根据每个上述第一语音语句各自的起始时间和每个上述第二语音语句各自的起始时间，对上述至少一个第一语音语句和上述至少一个第二语音语句进行排序，得到上述初始排序结果。

4、根据本公开的实施例，初始排序结果包括按照起始时间排列的至少一个初始语音语句和与每个初始语音语句各自对应的语音通道标识。

5、根据本公开的实施例，上述根据上述语音通道标识和上述结束时间，对上述初始排序结果进行处理，得到语音识别结果包括：在上述至少一个第一语音语句中确定第p个语音语句，其中，p为正整数；在上述至少一个第二语音语句中确定第p+1个语音语句；对上述第p个语音语句和上述第p+1个语音语句进行语音通道标识检测，得到语音通道标识检测结果；响应于上述语音通道标识检测结果表征上述第p个语音语句和上述第p+1个语音语句具有相同的上述语音通道标识，对上述第p个语音语句和上述第p+1个语音语句进行语音语句时间检测，得到语音语句时间检测结果；以及，响应于上述语音语句时间检测结果表征上述第p个语音语句的语句结束时间与上述第p+1个语音语句的语句起始时间相匹配，将上述第p个语音语句和上述第p+1个语音语句进行合并处理，得到合并后的第p个语音语句。

6、根据本公开的实施例，上述语音识别结果包括至少一个语音语句和与每个上述语音语句各自对应的语音通道标识。

7、根据本公开的实施例，上述方法还包括，在上述根据上述语音通道标识和上述结束时间，对上述初始排序结果进行处理，得到语音识别结果之后：在上述至少一个语音语句中依次确定第q个语音语句，其中，q为正整数；响应于与上述语音语句对应的语音通道标识表征属于第一语音通道，将上述语音语句在目标页面的第一目标区域进行展示；以及，响应于与上述语音语句对应的语音通道标识表征属于第二语音通道，将上述语音语句在上述目标页面的第二目标区域进行展示。

8、根据本公开的实施例，上述待识别语音包括至少两个语音通道。

9、根据本公开的实施例，上述响应于接收到语音识别请求，对上述语音识别请求中的待识别语音进行处理，得到与第一语音通道对应的第一语音段和与第二语音通道对应的第二语音段包括：响应于接收到上述语音识别请求，对上述待识别语音进行通道拆分处理，得到与上述第一语音通道对应的第一待识别语音和与上述第二语音通道对应的第二待识别语音；对上述第一待识别语音和上述第二语音段分别进行语音激活检测处理，得到至少一个第一待识别子语音和至少一个第二待识别子语音；以及，对上述至少一个第一待识别子语音和上述至少一个第二待识别子语音分别进行语音识别处理，得到至少一个上述第一语音段和至少一个上述第二语音段。

10、根据本公开的实施例，上述对上述至少一个第一待识别子语音和上述至少一个第二待识别子语音分别进行语音识别处理，得到至少一个上述第一语音段和至少一个上述第二语音段包括：针对上述至少一个第一待识别子语音中的每个第一待识别子语音，对上述第一待识别子语音进行语音识别处理，得到第一数目个第一字符和第二数目个第一词汇，其中，上述每个第一词汇各自对应有第一词汇时间戳信息；以及，针对上述至少一个第二待识别子语音中的每个第二待识别子语音，对上述第二待识别子语音进行语音识别处理，得到第三数目个第二字符和第四数目个第二词汇，其中，上述每个第二词汇各自对应有第二词汇时间戳信息。

11、根据本公开的实施例，上述第一词汇时间戳信息包括第一词汇起始时间和第一词汇结束时间。

12、根据本公开的实施例，上述对上述第一语音段和上述第二语音段分别进行处理，得到至少一个第一语音语句和至少一个第二语音语句包括：根据预定字符，对上述第一语音段中的上述第一数目个第一字符进行字符检测处理，得到第一字符检测结果；响应于上述第一字符检测结果表征上述第一字符与上述预定字符相匹配，确定与上述第一字符对应的第五数目个第一词汇；根据上述第五数目个第一词汇，对上述第一语音段进行拆分处理，得到上述第一语音语句；以及，根据与上述第五数目个第一词汇各自对应的上述第一词汇起始时间和上述第一词汇结束时间，确定与上述第一语音语句对应的起始时间和结束时间。

13、根据本公开的实施例，上述第二词汇时间戳信息包括第二词汇起始时间和第二词汇结束时间。

14、根据本公开的实施例，上述对上述第一语音段和上述第二语音段分别进行处理，得到至少一个第一语音语句和至少一个第二语音语句包括：根据上述预定字符，对上述第二语音段中的上述第二数目个第二字符进行字符检测处理，得到第二字符检测结果；响应于上述第二字符检测结果表征上述第二字符与上述预定字符相匹配，确定与上述第二字符对应的第六数目个第二词汇；根据上述第六数目个第二词汇，对上述第二语音段进行拆分处理，得到上述第二语音语句；以及，根据与上述第六数目个第二词汇各自对应的上述第二词汇起始时间和上述第二词汇结束时间，确定与上述第二语音语句对应的起始时间和结束时间。

15、根据本公开的另一个方面，提供了一种语音识别装置，包括：第一处理模块，用于响应于接收到语音识别请求，对所述语音识别请求中的待识别语音进行处理，得到与第一语音通道对应的第一语音段和与第二语音通道对应的第二语音段；第二处理模块，用于对所述第一语音段和所述第二语音段分别进行处理，得到至少一个第一语音语句和至少一个第二语音语句，其中，每个所述第一语音语句和每个所述第二语音语句各自对应有语音通道标识、起始时间和结束时间；排序模块，用于根据所述起始时间，对所述至少一个第一语音语句和所述至少一个第二语音语句进行排序，得到初始排序结果；以及，第三处理模块，用于根据所述语音通道标识和所述结束时间，对所述初始排序结果进行处理，得到语音识别结果。。

16、根据本公开的另一个方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个指令，其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如本公开所述的方法。

17、根据本公开的另一个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，上述可执行指令被处理器执行时使处理器实现如本公开所述的方法。

18、根据本公开的另一个方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述计算机可执行指令在被执行时用于实现如本公开所述的方法。

19、根据本公开的实施例，由于第一语音段和第二语音段是通过对语音识别请求中的待识别语音进行处理得到的，使得后续能够将待识别语音按照所属的语音通道进行分析。由于第一语音语句和第二语音语句是对第一语音段和第二语音段分别进行处理得到的，因而能够从语音段中提取到完整的语音语句，有利于提高后续语音识别的准确性。在此基础上，通过根据起始时间，对第一语音语句和第二语音语句进行排序得到初始排序结果，并根据语音通道标识和结束时间，对初始排序结果进行处理，得到语音识别结果，由此能够将语音语句按照时间先后顺序进行排列，至少部分地克服了相关技术中在不同通道的语音存在重叠情况的场景下，难以清晰地展示语音识别结果，导致用户体验较差的技术问题，通过根据语音通道和结束时间进行整理，能够获得更为准确和有序的语音识别结果，进而能够为用户提供更好的语音识别体验。