技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程 > 正文

语音识别方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:42:34

本申请涉及语音识别，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术：

1、语音识别技术是一种通过计算机分析和理解人类语音信号的技术。它的目标是将语音信号转换为对应的文本或指令，使计算机能够理解并处理语音输入。

2、语音识别技术在复杂噪声场景下存在如下问题：首先，语音识别技术不仅需要应对口音和语种的差异，还需要解决噪声场景下的识别问题。噪声干扰可以来源于环境噪声(如自然环境音、音乐声)、人为噪声(如会议中的非目标对象的说话语音)，并且在会议场景下，具有多人语音干扰的特点。传统语音识别困难之一是无法清晰识别出不同参会人的发言内容和逻辑，导致识别结果杂乱无序。

技术实现思路

1、本申请提供一种语音识别方法、装置、电子设备及存储介质，用以解决如何在复杂噪声场景下提高语音识别的准确性的问题。

2、第一方面，本申请提供一种语音识别方法，所述方法包括：

3、采集目标场景下的视频图像和语音信息，并对所述视频图像进行图像切割和人脸检测，获得每个人脸的唇部区域；

4、根据所述语音信息和所述唇部区域，确定目标对象的语音片段，所述语音片段用于表示语音和唇部运动的关联性；

5、将每个目标对象的语音片段从背景语音中分离出干净语音，并对所述干净语音进行语音识别以将其转换为语音识别文本。

6、在本申请一实施例中，所述视频图像为全方位图像，对所述视频图像进行图像切割包括：

7、将所述全方位图像切割为预设个图像块；

8、将相邻两个图像块拼接后整体输入训练好的人脸检测模型，以判断拼接处是否有检测到人体框；

9、如果在拼接处没有检测到人体框，则进行正常的图像切割处理；

10、如果在拼接处检测到人体框，则将当前位置的图像块向靠近相邻图像块的方向延伸以确保人体不被切割断开，同时将该相邻图像块做相应的调整以适应新的切割边界。

11、在本申请一实施例中，对所述视频图像进行图像切割和人脸检测，获得每个人脸的唇部区域包括：

12、获取切割后的视频图像以计算相邻两帧视频图像之间每个人体框的重叠面积，并选择重叠面积最大的两个人体框作为上一帧和下一帧同一个人的人体框，以形成连续的人体框序列；

13、根据所述人体框序列，在人体框范围内进行人脸检测，以获得每个人脸的唇部区域。

14、在本申请一实施例中，所述根据所述语音信息和所述唇部区域，确定目标对象的语音片段包括：

15、将所述唇部区域和所述语音信息输入训练好的多模态模型，得到目标对象在每个时间片段中是否在说话的判断结果；

16、基于所述判断结果，保留目标对象在每个时间片段中有效的语音片段以及其对应的唇部动作视频流；

17、根据所述目标对象在每个时间片段中有效的语音片段以及其对应的唇部动作视频流，检测声音和口型是否一致；

18、如果声音和口型检测一致，则确定每个时间段中同时在说话的目标对象的语音片段。

19、在本申请一实施例中，所述根据所述目标对象在每个时间片段中有效的语音片段以及其对应的唇部动作视频流，检测声音和口型是否一致包括：

20、将所述目标对象在每个时间片段中有效的语音片段以及其对应的唇部动作视频流输入训练好的唇音一致性检测模型；

21、对每个有效的语音片段以及其对应的唇部动作视频流进行特征提取，并计算二者之间的欧式距离；

22、如果所述欧式距离超过设定的阈值，则判定为声音和口型不一致，否则判定为声音和口型一致。

23、在本申请一实施例中，所述将每个目标对象的语音片段从背景语音中分离出干净语音包括：

24、使用多模态语音分离技术，结合所述目标对象的语音片段中唇部动作视频流和背景语音，在频域上预测所述目标对象的语音mask矩阵，并利用所述mask矩阵将每个目标对象的干净语音从背景语音中分离出来。

25、在本申请一实施例中，所述对所述干净语音进行语音识别以将其转换为语音识别文本包括：

26、将每个目标对象的干净语音输入预设的语音识别引擎；

27、调用所述语音识别引擎，将所述干净语音转换为语音识别文本，以得到某一时间段内每个目标对象的语音识别文本。

28、在本申请一实施例中，所述方法还包括：

29、对所述唇音一致性检测模型进行训练，其训练策略包括：

30、获取多个训练样本，每个训练样本包括一段语音和视频，以表示同一个说话人的声音和口型；

31、使用欧式距离来度量声音和口型的相似程度，其中较小的距离表示较高的一致性，较大的距离表示较低的一致性；

32、定义训练目标为最小化声音和口型一致样本之间的距离，并最大化不一致样本之间的距离。

33、第二方面，本申请还提供一种语音识别装置，所述装置包括：

34、数据处理模块，用于采集目标场景下的视频图像和语音信息，并对所述视频图像进行图像切割和人脸检测，获得每个人脸的唇部区域；

35、目标确定模块，用于根据所述语音信息和所述唇部区域，确定目标对象的语音片段，所述语音片段用于表示语音和唇部运动的关联性；

36、语音识别模块，用于将每个目标对象的语音片段从背景语音中分离出干净语音，并对所述干净语音进行语音识别以将其转换为语音识别文本。

37、第三方面，本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的语音识别方法的步骤。

38、第四方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的语音识别方法的步骤。

39、本申请提供的一种语音识别方法、装置、电子设备及存储介质，该方法首先通过采集目标场景下的视频图像和语音信息，并对视频图像进行图像切割和人脸检测，可以获取每个人脸的唇部区域。这有助于提取目标对象的关键信息，即唇部运动轨迹，并为后续的分离和识别提供准确的输入。然后，通过结合语音信息和唇部区域，可以确定目标对象的语音片段。这有助于减少噪声和其他干扰对语音识别性能的影响，提高目标对象语音的质量。而且，针对每个目标对象的语音片段，将其从背景语音中分离出干净语音。这通过去除背景噪声和干扰，从而提取出目标对象的干净语音。最后，通过对分离出的干净语音进行语音识别，将其转换为相应的语音识别文本。分离和识别准确的干净语音有助于提高语音识别的准确性，因为在去除背景噪声和干扰的情况下，更容易捕捉到目标对象的语音信息。

40、因此，本申请通过数据处理、目标语音的确定、干净语音的分离和语音识别等步骤，可以在复杂噪声场景中提高语音识别的准确性，减少背景噪声和干扰对目标对象语音的影响，从而提取出高质量的语音信号进行识别。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述视频图像为全方位图像，对所述视频图像进行图像切割包括：

3.根据权利要求2所述的语音识别方法，其特征在于，对所述视频图像进行图像切割和人脸检测，获得每个人脸的唇部区域包括：

4.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述语音信息和所述唇部区域，确定目标对象的语音片段包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述根据所述目标对象在每个时间片段中有效的语音片段以及其对应的唇部动作视频流，检测声音和口型是否一致包括：

6.根据权利要求1所述的语音识别方法，其特征在于，所述将每个目标对象的语音片段从背景语音中分离出干净语音包括：

7.根据权利要求1所述的语音识别方法，其特征在于，所述对所述干净语音进行语音识别以将其转换为语音识别文本包括：

8.根据权利要求5所述的语音识别方法，其特征在于，所述方法还包括：

9.一种语音识别装置，其特征在于，所述装置包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的语音识别方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的语音识别方法的步骤。

技术总结本申请提供一种语音识别方法、装置、电子设备及存储介质，所述方法包括：采集目标场景下的视频图像和语音信息，并对所述视频图像进行图像切割和人脸检测，获得每个人脸的唇部区域；根据所述语音信息和所述唇部区域，确定目标对象的语音片段，所述语音片段用于表示语音和唇部运动的关联性；将每个目标对象的语音片段从背景语音中分离出干净语音，并对所述干净语音进行语音识别以将其转换为语音识别文本。本申请可以在复杂噪声场景中提高语音识别的准确性。技术研发人员：王庆然,陈立柱,熊世富,潘嘉,高建清,谢信珍,潘青华,刘聪,马峰,万根顺受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/17