技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音分离方法、装置、系统及存储介质与流程 > 正文

一种语音分离方法、装置、系统及存储介质与流程

国知局
2024-06-21 11:33:44

本技术涉及语音处理，特别涉及一种语音分离方法、装置、系统及存储介质。

背景技术：

1、随着科技的快速发展，语音交互技术已广泛应用于车载互联场景中。现有的车载多音区语音交互是通过麦克风阵列捕捉多路音频信号，之后声源定位、回声消除、语音降噪和盲源分离等算法将各个源信号分离出来，实现对不同位置乘客的语音指令的精准区分和识别。

2、但是，由于只利用了音频这一单一模态的信号，在恶劣语音唤醒场景下，当进行语音唤醒时极其容易发生声源定位干扰，进而导致信号分离不彻底的问题，大大降低语音分离的准确度，严重影响车载多音区语音交互的效果，从而影响车载多音区语音交互的用户体验。因此，如何提供一种方法，提高语音分离的准确度，成为一项亟待解决的技术问题。

技术实现思路

1、本技术提供一种语音分离方法、装置、系统及存储介质，用以提高语音分离的准确度。

2、本技术提供一种语音分离方法，包括：

3、获取混合音频信号和目标视频信号，所述混合音频信号是同时采集多个声源发出的声音获得的音频信号，所述多个声源包括目标用户，所述视频信号是至少拍摄所述目标用户的面部获得的视频信号；

4、对所述目标视频信号进行内容特征提取，确定所述目标用户的唇形特征向量；

5、基于预先训练的音频分离模型对所述混合音频信号和所述唇形特征向量进行处理，确定分离音频信号，所述分离音频信号为表征所述目标用户发声特征的音频信号；

6、其中所述音频分离模型采用样本音视频对训练得到，所述样本音视频对包括混合样本音频信号、唇形样本特征向量和与所述唇形样本特征向量对应的分离样本音频信号，所述混合样本音频信号中融合有所述分离样本音频信号的特征。

7、本技术通过采集车内的混合音频信号和视频信号，并提取目标用户的唇形特征向量，结合唇形信息对混合音频信号进行语音分离。可见，本技术在进行语音分离时，在音频信号的基础上，结合了视频信号进行语音分离，并且，还结合了视频信号中的唇形特征向量，通过唇形信息辅助语音分离，因此，提高了语音分离的准确度，并进一步提升了用户体验。

8、在一个实施例中，所述对所述目标视频信号进行内容特征提取，确定所述目标用户的唇形特征向量，包括：

9、获取所述目标视频信号中各个图像帧中目标用户的面部图像；

10、对各个面部图像进行特征处理，确定各个所述面部图像的唇形特征元素；

11、按照所述图像帧的顺序对所述唇形特征元素进行排序，得到所述目标用户的唇形特征向量。

12、在一个实施例中，在基于预先训练的音频分离模型对所述混合音频信号和所述唇形特征向量进行处理之前，所述方法还包括：

13、对所述混合音频信号和所述唇形特征向量进行时间对齐操作，得到时间特征对齐后的所述混合音频信号和所述唇形特征向量；

14、所述基于预先训练的音频分离模型对所述混合音频信号和所述唇形特征向量进行处理，包括：

15、基于预先训练的音频分离模型对时间特征对齐的所述混合音频信号和所述唇形特征向量输入到预先训练的音频分离模型中。

16、在一个实施例中，所述基于预先训练的音频分离模型对所述混合音频信号和所述唇形特征向量进行处理，确定分离音频信号包括：

17、采用预先训练的音频视频特征融合模型对所述混合音频信号和所述唇形特征向量进行处理，确定掩蔽特征张量；

18、根据所述掩蔽特征张量和所述混合音频信号，确定所述分离音频信号。

19、本技术还提供一种音频分离模型的训练方法，包括：

20、获取样本音视频对，所述样本音视频对包括混合样本音频信号、唇形样本特征向量和与所述唇形样本特征向量对应的分离样本音频信号，所述混合样本音频信号中融合有所述分离样本音频信号的特征；

21、将所述混合样本音频信号、所述唇形样本特征向量作为模型输入，将所述分离样本音频信号作为输出，对音频分离模型进行训练。

22、在一个实施例中，所述获取音视频对包括：

23、获取唇形样本特征向量和与所述唇形样本特征向量对应的分离样本音频信号；

24、采用至少两个分离样本音频信号进行音频融合，得到混合样本音频信号。

25、在一个实施例中，所述唇形样本特征向量采用如下方法获得：

26、获取采集所述分离样本音频信号时拍摄的样本视频信号；

27、对所述样本视频信号进行内容特征提取，确定所唇形样本特征向量。

28、在一个实施例中，所述对所述样本视频信号进行内容特征提取，确定所唇形样本特征向量，包括：

29、获取所述样本视频信号中各个图像帧中的面部图像；

30、对各个面部图像进行特征处理，确定各个所述面部图像的唇形特征元素；

31、按照所述图像帧的顺序对所述唇形特征元素进行排序，得到所述唇形样本特征向量。

32、在一个实施例中，将所述混合样本音频信号、所述唇形样本特征向量作为模型输入，将所述分离样本音频信号作为输出，对音频分离模型进行训练包括：

33、对所述混合音频信号和所述唇形样本特征向量进行时间对齐操作，得到时间特征对齐后的所述混合音频信号和所述唇形样本特征向量；

34、将时间特征对齐后的所述混合样本音频信号和所述唇形样本特征向量作为模型输入，将所述分离样本音频信号作为输出，对音频分离模型进行训练。

35、本技术还提供一种语音分离装置，包括：

36、获取模块，用于获取混合音频信号和目标视频信号，所述混合音频信号是同时采集多个声源发出的声音获得的音频信号，所述多个声源包括目标用户，所述视频信号是至少拍摄所述目标用户的面部获得的视频信号；

37、提取模块，用于对所述目标视频信号进行内容特征提取，确定所述目标用户的唇形特征向量；

38、确定模块，用于基于预先训练的音频分离模型对所述混合音频信号和所述唇形特征向量进行处理，确定分离音频信号，所述分离音频信号为表征所述目标用户发声特征的音频信号；

39、其中所述音频分离模型采用样本音视频对训练得到，所述样本音视频对包括混合样本音频信号、唇形样本特征向量和与所述唇形样本特征向量对应的分离样本音频信号，所述混合样本音频信号中融合有所述分离样本音频信号的特征。

40、在一个实施例中，所述提取模块，包括：

41、获取子模块，用于获取所述目标视频信号中各个图像帧中目标用户的面部图像；

42、确定子模块，用于对各个面部图像进行特征处理，确定各个所述面部图像的唇形特征元素；

43、排序子模块，用于按照所述图像帧的顺序对所述唇形特征元素进行排序，得到所述目标用户的唇形特征向量。

44、在一个实施例中，所述语音分离装置还包括：

45、对齐模块，用于对所述混合音频信号和所述唇形特征向量进行时间对齐操作，得到时间特征对齐后的所述混合音频信号和所述唇形特征向量；

46、所述确定模块，还用于：

47、基于预先训练的音频分离模型对时间特征对齐的所述混合音频信号和所述唇形特征向量输入到预先训练的音频分离模型中。

48、在一个实施例中，所述确定模块，还用于：

49、采用预先训练的音频分离模型对所述混合音频信号和所述唇形特征向量进行处理，确定掩蔽特征张量；

50、根据所述掩蔽特征张量和所述混合音频信号，确定所述分离音频信号。

51、本技术还提供一种音频分离模型的训练装置，包括：

52、获取模块，用于获取样本音视频对，所述样本音视频对包括混合样本音频信号、唇形样本特征向量和与所述唇形样本特征向量对应的分离样本音频信号，所述混合样本音频信号中融合有所述分离样本音频信号的特征；

53、训练模块，用于将所述混合样本音频信号、所述唇形样本特征向量作为模型输入，将所述分离样本音频信号作为输出，对音频分离模型进行训练。

54、在一个实施例中，所述音频分离模型的训练装置的获取模块，包括：

55、获取子模块，用于获取唇形样本特征向量和与所述唇形样本特征向量对应的分离样本音频信号；

56、融合子模块，用于采用至少两个分离样本音频信号进行音频融合，得到混合样本音频信号。

57、在一个实施例中，所述音频分离模型的训练装置的获取模块中唇形样本特征向量采用如下方法获得：

58、获取采集所述分离样本音频信号时拍摄的样本视频信号；

59、对所述样本视频信号进行内容特征提取，确定所唇形样本特征向量。

60、在一个实施例中，所述音频分离模型的训练装置的获取模块中对所述样本视频信号进行内容特征提取，确定所唇形样本特征向量，包括：

61、获取所述样本视频信号中各个图像帧中的面部图像；

62、对各个面部图像进行特征处理，确定各个所述面部图像的唇形特征元素；

63、按照所述图像帧的顺序对所述唇形特征元素进行排序，得到所述唇形样本特征向量。

64、在一个实施例中，所述音频分离模型的训练装置中的训练模块，包括：

65、对齐子模块，用于对所述混合音频信号和所述唇形样本特征向量进行时间对齐操作，得到时间特征对齐后的所述混合音频信号和所述唇形样本特征向量；

66、训练子模块，用于将时间特征对齐后的所述混合样本音频信号和所述唇形样本特征向量作为模型输入，将所述分离样本音频信号作为输出，对音频分离模型进行训练。

67、本技术还提供一种语音分离系统，包括：

68、至少一个处理器；以及，

69、与所述至少一个处理器通信连接的存储器；其中，

70、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行以实现上述任意一个实施例所记载的语音分离方法或音频分离模型的训练方法。

71、本技术还提供一种计算机可读存储介质，当存储介质中的指令由语音分离系统对应的处理器执行时，使得语音分离系统能够实现上述任意一个实施例所记载的语音分离方法或音频分离模型的训练方法。

72、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

73、下面通过附图和实施例，对本技术的技术方案做进一步的详细描述。

标签：语音装置流程技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240618/22249.html

上一篇
音频流处理方法及装置、存储介质及电子装置与流程

下一篇
返回列表

一种语音分离方法、装置、系统及存储介质与流程

相关技术

最新技术

技术分类