技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于视线追踪技术的目标说话人语音提取方法及系统与流程  >  正文

一种基于视线追踪技术的目标说话人语音提取方法及系统与流程

  • 国知局
  • 2024-06-21 11:44:34

本发明涉及计算机视觉(图像处理)和语音处理的交叉,特别是指一种基于视线追踪技术的目标说话人语音提取方法及系统。

背景技术:

1、目标说话人提取(target speech/speaker extraction,tse),实现的功能是借助目标说话人的特征线索(clues),从带有噪声、干扰语音的信号中提取特定目标说话人的语音。其中特征线索可以是目标说话人事先录好的声纹特征,也可以是其他模态的线索,比如说视频模态下的唇动信息或者人脸信息等。

2、目前,现有的目标说话人语音提取方案如下:

3、quan wang等人提出的voicefilter是较早使用神经网络(neural network,nn)实现tse的模型,他们提出了一种提前获取目标人注册语音,从多个说话人混合语音中分离提取目标人语音的模型。使用对应说话人的事先录制好的一段语音作为注册信息(即声纹特征线索)作为说话人嵌入(speaker embedding),并结合时间循环神经网络(long short-term memory,lstm)生成掩码,用于过滤目标说话人在混杂场景中的语音。

4、ephrat等人使用了从名为facenet的人脸识别系统中间层获得的视觉嵌入。该人脸识别系统经过训练,使来自同一人的照片的嵌入值相近,而来自不同人的嵌入值相远。因此,它只需要一个带有人物身份标签的静态图像语料库来训练系统。

5、owens等人提出的第三种方案,是利用经过训练的nn所产生的嵌入来预测视频的音轨和视轨是否同步。这种方法实现了自我监督训练,只需将音轨随机移动几秒钟即可创建训练数据。嵌入法捕捉的是唇部动作与音频中声音时序之间的关联信息。

6、然而,上述基于视觉线索的tse系统仍存在一些问题。比如,大多数方法没有考虑说话者跟踪问题,而且假定音频和视频信号是同步的。由此造成目前现有的基于视觉线索的tse系统在实时性方面存在较大不足,特别是在使用人脸信息作为特征线索的方法中,由于需要后期识别,因此无法在初始阶段准确指定特定目标人,并获取其特征线索,以进行语音提取。

技术实现思路

1、本发明提供了一种基于视线追踪技术的目标说话人语音提取方法及系统,以解决现有技术所存在的没有考虑说话者跟踪问题,实时性不足的技术问题。

2、为解决上述技术问题,本发明提供了如下技术方案:

3、一方面,本发明提供了一种基于视线追踪技术的目标说话人语音提取方法,所述基于视线追踪技术的目标说话人语音提取方法包括:

4、利用增强现实(augmented reality,ar)眼镜获取用户视线范围内的视频;

5、基于利用ar眼镜获取的用户视线范围内的视频,根据用户的眼动信号,利用视线追踪技术确定用户当前所注视的说话人,将其作为目标说话人;

6、截取所述目标说话人的图像,并识别所述目标说话人的特征线索,利用目标说话人的特征线索来进行多人说话场景下的语音识别,得到目标说话人语音。

7、进一步地,所述特征线索为目标说话人的声纹特征、唇动信息和/或人脸信息。

8、进一步地,所述识别所述目标说话人的特征线索,利用目标说话人的特征线索来进行多人说话场景下的语音识别,得到目标说话人语音,包括:

9、获取所述目标说话人的唇动信息作为其特征线索,结合选择性听觉注意力机制来进行多人说话场景下的语音提取,得到目标说话人语音。

10、进一步地,获取所述目标说话人的唇动信息作为其特征线索,结合选择性听觉注意力机制来进行多人说话场景下的语音提取,得到目标说话人语音,包括:

11、构建适用于ar领域的基于视频追踪的多模态目标说话人语音提取模型arextractor;

12、利用构建的arextractor模型识别所述目标说话人的特征线索,利用目标说话人的特征线索来进行多人说话场景下的语音识别,得到目标说话人语音。

13、进一步地,arextractor模型包括:视频编码器、音频编码器和音频解码器;

14、所述视频编码器用于根据截取的所述目标说话人的图像,捕捉目标说话人在视频中的变化,获取目标说话人的唇动信息作为其特征线索;

15、所述音频编码器用于接收多通道混合音频,其中包含了来自干扰音频和目标说话人的混合信号;所述音频编码器采用梅尔频谱图作为输入,通过将短时傅里叶变换转换为梅尔尺度,实现对音频信息的更优表示;通过提取梅尔频谱图的特征信息,获取音频特征;所述音频编码器输出的音频特征的被展平,并与所述视频编码器的输出直接拼接在一起,实现对视频和音频特征的融合;

16、所述音频解码器用于基于视频和音频特征的融合结果,得到目标说话人语音。

17、进一步地,所述视频编码器为时空残差网络,所述时空残差网络包含一个3d卷积层,内部包含多层2d resnet,以提取视频中不同粒度的人脸信息,捕捉目标说话人在视频中的变化,获取目标说话人的唇动信息。

18、进一步地,所述音频编码器采用包含批量归一化、relu激活函数和最大池化操作的2d cnn层堆,从梅尔频谱图中提取音频特征。

19、进一步地,所述音频解码器得到目标说话人语音的过程包括:

20、首先,利用transformer模型处理将视频和音频特征融合后所得到的包含图像特征和音频特征的张量,输出关于目标说话人的信息;

21、随后,经过全连接神经网络对transformer模型的输出结果进行处理,获得关于目标说话人的软掩码预测;所述软掩码被用于与原多通道混合音频的梅尔频谱图进行逐元素相乘的操作,以过滤掉非目标说话人的语音成分;

22、最后,得到的软掩码经过逆短时傅立叶变换重新转换回时域,从而得到目标说话人的语音,实现多人说话场景下的语音识别。

23、另一方面,本发明还提供了一种基于视线追踪技术的目标说话人语音提取系统,所述基于视线追踪技术的目标说话人语音提取系统包括:

24、目标说话人追踪模块,用于:

25、利用增强现实(augmented reality,ar)眼镜获取用户视线范围内的视频;

26、基于利用ar眼镜获取的用户视线范围内的视频,根据用户的眼动信号,利用视线追踪技术确定用户当前所注视的说话人,将其作为目标说话人;

27、目标说话人语音提取模块,用于根据所述目标说话人追踪模块的输出结果,截取所述目标说话人的图像,并识别所述目标说话人的特征线索,利用目标说话人的特征线索来进行多人说话场景下的语音识别,得到目标说话人语音。

28、再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。

29、又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。

30、通过眼动信号的追踪,本发明方案能够准确定位目标人的位置,并提取目标人脸的关键信息。这一信息被传递至视频编码器,其中多层resnet被用于深度抽取人脸特征线索。进一步地,提取的人脸特征线索与音频编码器输出的梅尔频谱图进行连接,实现视频和音频特征的高效融合。通过引入自注意力机制的transformer,并通过全连接神经网络生成了一个掩码。这个掩码经过与原混合音频的梅尔图逐元素相乘,最终实现了对环境噪声和其他非目标说话人的有效过滤,得到了清晰纯净的目标说话人的语音。这一方案整合了多模态信息处理、自注意力机制和神经网络技术,为目标说话人语音的精确提取提供了一种全新的、高度有效的方法。本发明提供的技术方案带来的有益效果至少包括:

31、1、本发明提高了语音识别准确性:ar眼镜通过智能分析目标说话人的面部特征、唇动信息和声音特征,能够更准确地识别目标说话人的语音。这有助于降低环境噪音对语音识别的干扰,提高整体的识别准确性。

32、2、本发明可有效过滤环境噪音:ar眼镜充当高效的语音过滤器,通过识别目标说话人的声音模式,将非目标说话人的声音排除在外。这种智能过滤机制有效减少了嘈杂环境中的干扰,使得用户在复杂声音背景下更容易聆听到目标说话人的语音内容。

33、3、本发明提升了沟通体验:用户能够更为清晰地聆听目标说话人的语音内容,即便在嘈杂环境中也能够获得更好的沟通体验。这对于会议、交流和其他需要语音传输的场景具有重要意义,提高了沟通的效率和质量。

34、4、本发明可适应复杂声音环境:使用户更好地适应复杂的声音环境,而不会受到过多的干扰。这对于需要在嘈杂环境中工作或交流的专业人士和普通用户都有实际的帮助。

35、5、本发明提出了一种创新的解决方案:本发明提供了一种创新的解决方案,结合了ar眼镜的智能分析和语音过滤功能,为嘈杂环境中清晰语音传输的需求提供了新的途径。这种创新有望推动语音识别技术在复杂环境中的应用和发展。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23279.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。