技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、设备、存储介质及程序产品与流程 > 正文

语音识别方法、装置、设备、存储介质及程序产品与流程

国知局
2024-06-21 11:58:34

本申请涉及语音识别，尤其涉及一种语音识别方法、装置、设备、存储介质及程序产品。

背景技术：

1、多通道音频是指由多个收音设备录制的音频。例如，在会议场景，包含多个说话人和设置在不同位置的多个麦克风，多个麦克风同时进行收音得到多通道音频。

2、相关技术中，在识别多通道音频时，多数是针对单通道音频进行依次识别，无法有效捕捉多通道之间的关系，使得语音识别不准确。

技术实现思路

1、为了解决上述问题，本申请提出一种语音识别方法、装置、设备、存储介质及程序产品，能够提升语音识别的准确性。

2、根据本申请实施例的第一方面，提供了一种语音识别方法，包括：

3、获取待识别语音和伪语音，其中，所述待识别语音为多通道音频，所述伪语音是与所述多通道音频的音频序列长度相同的音频；

4、对所述待识别语音的各个通道音频中的每一音频帧，以及所述伪语音的每一音频帧进行特征融合，得到各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列；

5、分别对各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列进行解码，确定与所述待识别语音对应的识别文本。

6、根据本申请实施例的第二方面，提供了一种语音识别装置，包括：

7、获取模块，用于获取待识别语音和伪语音，其中，所述待识别语音为多通道音频，所述伪语音是与所述多通道音频的音频序列长度相同的音频；

8、处理模块，用于对所述待识别语音的各个通道音频中的每一音频帧，以及所述伪语音的每一音频帧进行特征融合，得到各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列；

9、识别模块，用于分别对各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列进行解码，确定与所述待识别语音对应的识别文本。

10、本申请第三方面提供了一种电子设备，包括：

11、存储器和处理器；

12、所述存储器与所述处理器连接，用于存储程序；

13、所述处理器，通过运行所述存储器中的程序，实现上述的语音识别方法。

14、本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法。

15、本申请第五方面提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的语音识别方法。

16、上述申请中的一个实施例具有如下优点或有益效果：

17、获取待识别语音和伪语音，其中，待识别语音是为多通道音频，伪语音是预先构建的与多通道音频的音频序列长度相同的音频；基于多通道音频中各个通道音频的每一音频帧和伪语音的每一音频帧进行特征融合，得到各个通道音频对应的第一融合音频序列和伪语音对应的第二融合音频序列；分别对各个通道音频对应的第一融合音频序列和伪语音对应的第二融合音频序列进行解码，确定与待识别语音对应的识别文本。这样，将伪语音中的音频帧和各个通道间的音频帧进行特征交互，实现了帧级别的多通道间的特征融合，同时保留了不同通道的独立性，避免了某个通道信号较差导致特征融合失真的问题，从而保证了语音识别结果的准确性。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取待识别语音和伪语音之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述待识别语音的各个通道音频中的每一音频帧，以及所述伪语音的每一音频帧进行特征融合，得到各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述待识别语音的各个通道音频中的每一音频帧，以及所述伪语音的每一音频帧进行特征融合，得到各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述将n个通道音频的第i帧音频帧和所述伪语音的第i帧音频帧进行特征融合，得到n+1个融合后的第i帧音频帧，包括：

6.根据权利要求1所述的方法，其特征在于，所述分别对各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列进行解码，确定与所述待识别语音对应的识别文本，包括：

7.一种语音识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至6中任意一项语音识别方法。

10.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至6中任意一项语音识别方法。

技术总结本申请提供了语音识别方法、装置、设备、存储介质及程序产品，具体实现方案为：获取待识别语音和伪语音，其中，所述待识别语音为多通道音频，所述伪语音是与所述多通道音频的音频序列长度相同的音频；对所述待识别语音的各个通道音频中的每一音频帧，以及所述伪语音的每一音频帧进行特征融合，得到各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列；分别对各个通道音频对应的第一融合音频序列和所述伪语音对应的第二融合音频序列进行解码，确定与所述待识别语音对应的识别文本。根据本申请的技术方案，能够有效提升语音识别的准确性。技术研发人员：胡今朝,吴重亮,李永超,吴明辉受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/6/13