技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多模态语音分离识别方法、装置、冰箱及存储介质与流程  >  正文

多模态语音分离识别方法、装置、冰箱及存储介质与流程

  • 国知局
  • 2024-06-21 11:30:13

本发明涉及计算机,具体地涉及一种多模态语音分离识别方法、装置、冰箱及存储介质。

背景技术:

1、伴随多模态语音技术、深度学习及语音信号处理技术的快速发展,其中多模态语音分离、语音识别不仅成为产业界、工业界等研究的热点,而且在智能家居背景下的人机语音交互重要性日益增强。针对智能家居复杂场景下获取多模态音视频分离所得语音分离效果差进而较容易引起能量损失最终导致语音质量差的问题。

2、有些方法仅仅所采集单一语音数据并采用传统统计学方法进行语音分离,但是存在语音分离后所获得的语音质量较差;其次,还有一些方法采用以神经网络为主的深度学习方法,虽然这些方法对语音质量有较大的提升,但是对存在模型性能方面不足的问题,特别是语音分离与识别一体整体性能还存在优化空间;再次,有些方法对多模态音视频分离构建模型依赖说话人和模型适应性存在不足。

3、目前不仅要解决多模态音视频分离后语音分离模型效果等性能问题,而且要解决多模态语音识别准确率的提升问题,因此有必要对多模态语音分离采用有效方法进一步提升智能家居人机语音交互效率特别是语音的可懂度。

技术实现思路

1、本发明的目的在于提供一种多模态语音分离识别方法、装置、冰箱及存储介质。

2、本发明提供一种多模态语音分离识别方法,其包括步骤:

3、获取语音数据、音视频数据;

4、对所述语音数据和所述音视频数据进行预处理,并对所述音视频数据进行语音视频分离,获得分离后的视频语音数据;

5、获取有效时长的所述语音数据和所述视频语音数据;

6、对所述语音数据和所述视频语音进行编码得到两者的基频表示,通过深度神经网络构建分离模型,通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据;

7、通过深度卷积神经网络对分离所述语音数据和所述视频语音数据进行语音特征提取,获取语音特征;

8、对所述语音特征进行编码获得语义特征向量;

9、对所述语义特征向量进行解码得到语音文本数据;

10、基于语义信息生成文本和/或图像和/或语音,并输出所生成的信息。

11、作为本发明的进一步改进,通过深度神经网络构建分离模型,具体包括:

12、通过深度神经网络构建分离模型,训练得到对应的掩码,将掩码应用于混合语音,实现目标语音的分离。

13、作为本发明的进一步改进,在处理后获取有效时长的所述语音数据和所述视频语音数据后,还包括:

14、对所述语音数据和所述视频语音数据进行过滤,筛除部分冗余语音信号。

15、作为本发明的进一步改进,所述对所述语音特征进行编码获得语义特征向量,具体包括:

16、通过wav2vec模型将所述语音特征进行编码获得语义特征向量。

17、作为本发明的进一步改进,所述对所述语义特征向量进行解码得到语音文本数据,具体包括:

18、通过多层transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

19、作为本发明的进一步改进,所述对所述语音数据和音视频数据进行预处理,包括:

20、对所述语音数据和音视频数据进行数据清洗、格式转化及存储任务。

21、作为本发明的进一步改进,所述基于语义信息生成文本和/或图像和/或语音具体包括:

22、基于语义信息生成文本,和/或

23、基于语义信息采用clip模型方法生成图像,和/或

24、基于语义信息采用波形拼接和端到端神经网络模型生成语音。

25、作为本发明的进一步改进,所述获取语音数据、音视频数据,具体包括:

26、获取语音采集装置所采集的所述语音数据,和/或

27、获取自客户终端传输的所述语音数据;

28、获取语音采集装置所采集的所述音视频数据,和/或

29、获取自客户终端传输的所述音视频数据。

30、作为本发明的进一步改进,所述输出所生成的信息,具体包括:

31、将所述生成的文本和/或图像和/或语音直接输出,和/或

32、将所述生成的文本和/或图像和/或语音传输至客户终端输出。

33、本发明还提供一种多模态语音分离识别装置,其包括:

34、数据获取模块,用于获取语音数据、音视频数据;

35、语音数据处理模块,用于对所述语音数据和所述音视频数据进行预处理,并对所述音视频数据进行语音视频分离,获得分离后的视频语音数据;获取有效时长的所述语音数据和所述视频语音数据;对所述语音数据和所述视频语音进行编码得到两者的基频表示,通过深度神经网络构建分离模型,通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据;通过深度卷积神经网络对分离所述语音数据和所述视频语音数据进行语音特征提取,获取语音特征;

36、编码模块,用于对所述语音特征进行编码获得语义特征向量;

37、解码模块,用于对所述语义特征向量进行解码得到语音文本数据;

38、结果生成和输出模块,基于语义信息生成文本和/或图像和/或语音,并输出所生成的信息。

39、作为本发明的进一步改进,所述语音数据处理模块通过深度神经网络构建分离模型,训练得到对应的掩码,将掩码应用于混合语音,实现目标语音的分离。

40、作为本发明的进一步改进,所述语音数据处理模块还被配置用于对所述语音数据和所述视频语音数据进行过滤,筛除部分冗余语音信号。

41、作为本发明的进一步改进,所述编码模块通过wav2vec模型将所述语音特征进行编码获得语义特征向量。

42、作为本发明的进一步改进,所述解码模块通过多层transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

43、作为本发明的进一步改进,所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据,和/或获取自客户终端传输的所述语音数据;获取语音采集装置所采集的所述音视频数据,和/或获取自客户终端传输的所述音视频数据。

44、作为本发明的进一步改进,所述结果生成和输出模块被配置用于基于语义信息生成文本,和/或基于语义信息采用clip模型方法生成图像,和/或基于语义信息采用波形拼接和端到端神经网络模型生成语音。

45、本发明还提供一种冰箱,其包括:

46、存储器,用于存储可执行指令;

47、处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至9任一项所述的多模态语音分离识别方法。

48、本发明还提供一种计算机可读存储介质,其存储有可执行指令,所述可执行指令被处理器执行时实现上述的多模态语音分离识别方法。

49、本发明的有益效果是:本发明通过多通道进行音视频采集,通过编码器提取语音基频,采用深度神经网络构建分离模型、解码器重建语音,有效改善多模态语音分离效果。配合后续的语义编码和解码过程,以及多媒体的展示信息生成方式,提升了智能家居人机交互的可懂度和便捷性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21907.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。