技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种多模态语音端点检测方法、装置、介质及车辆与流程  >  正文

一种多模态语音端点检测方法、装置、介质及车辆与流程

  • 国知局
  • 2024-06-21 11:32:46

本技术涉及数据处理,具体提供一种多模态语音端点检测方法、装置、介质及车辆。

背景技术:

1、语音端点检测(voice activity detection,vad),也称为语音活性检测,它的目的是对语音和非语音的区域进行区分,通俗的来理解,语音端点检测就是为了从带有噪声的语音中准确的定位出语音的开始点,和结束点,去掉静音的部分,去掉噪声的部分,找到一段语音真正有效的内容。

2、在实际的车载语音端点检测任务中,通常使用单模态进行处理和识别。在使用单模态进行语音端点检测时,往往会发现一些复杂场景使得高质量的模态特征无法准确的获取到,进而导致语音端点检测的准确性和稳定性降低。

3、相应地,本领域需要一种新的语音端点检测方案来解决上述问题。

技术实现思路

1、为了克服上述缺陷,提出了本技术,以提供解决或至少部分地解决如何提升语音端点检测的准确性和稳定性的技术问题。

2、在第一方面,本技术提供一种多模态语音端点检测方法,所述方法包括:

3、获取同一预设时间段内同一空间内的视频数据和音频数据;

4、基于所述视频数据获取视频特征,基于所述音频数据获取音频特征;

5、根据所述视频特征和所述音频特征,获取所述视频特征的权重和所述音频特征的权重;

6、基于所述视频特征的权重和所述音频特征的权重对所述视频特征和所述音频特征进行融合,得到所述多模态特征;

7、基于所述多模态特征进行语音端点检测,得到语音端点检测结果。

8、在上述一种多模态语音端点检测方法的一个技术方案中,所述基于所述视频特征和所述音频特征,获取所述视频特征的权重和所述音频特征的权重,包括:

9、通过预设的可信赖分数自适应打分模型对所述视频特征和所述音频特征分别进行打分,以分别获得所述视频特征的分数和所述音频特征的分数;

10、基于所述视频特征的分数和所述音频特征的分数,获取所述视频特征的权重和所述音频特征的权重。

11、在上述一种多模态语音端点检测方法的一个技术方案中,所述基于所述视频数据获取视频特征,包括:

12、将所述视频数据进行预处理,得到所述视频数据的预处理数据;

13、通过训练完成的视频特征提取模型对所述视频数据的预处理数据进行特征提取,得到所述视频特征。

14、在上述一种多模态语音端点检测方法的一个技术方案中,所述方法还包括根据以下步骤对视频特征提取模型进行训练:

15、获取历史视频数据,对所述历史视频数据进行所述预处理,得到所述历史视频数据的预处理数据;

16、对所述历史视频数据的预处理数据进行数据增强处理,获得数据增强后的预处理数据;

17、基于所述数据增强后的预处理数据对所述视频特征提取模型进行训练,得到所述训练完成的视频特征提取模型。

18、在上述一种多模态语音端点检测方法的一个技术方案中,所述对所述历史视频数据的预处理数据进行数据增强处理,包括:

19、对所述历史视频数据的预处理数据进行唇部遮挡和/或图像加噪和/或图像模糊处理,以实现所述数据增强处理。

20、在上述一种多模态语音端点检测方法的一个技术方案中,所述基于所述音频数据获取音频特征,包括:

21、将所述音频数据进行预处理,得到所述音频数据的预处理数据;

22、通过训练完成的音频特征提取模型对所述音频数据的预处理数据进行特征提取,得到所述音频特征。

23、在上述一种多模态语音端点检测方法的一个技术方案中,所述方法还包括根据以下步骤对音频特征提取模型进行训练:

24、获取历史音频数据,对所述历史音频数据进行所述预处理,得到所述历史音频数据的预处理数据;

25、对所述历史音频数据的预处理数据进行数据增强处理,获取数据增强后的预处理数据;

26、基于所述数据增强后的预处理数据对所述音频特征提取模型进行训练,得到所述训练完成的音频特征提取模型。

27、在上述一种多模态语音端点检测方法的一个技术方案中,所述对所述历史音频数据的预处理数据进行数据增强处理,包括:

28、对所述历史音频数据的预处理数据进行多说话人数据增强,以实现所述数据增强处理。

29、在第二方面,提供一种控制装置,该控制装置包括至少一个处理器和至少一个存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述多模态语音端点检测方法的技术方案中任一项技术方案所述的多模态语音端点检测方法。

30、在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述多模态语音端点检测方法的技术方案中任一项技术方案所述的多模态语音端点检测方法。

31、在第四方面,提供一种车辆,所述车辆包括上述控制装置技术方案中所述的控制装置。

32、本技术上述一个或多个技术方案,至少具有如下一种或多种

33、有益效果:

34、在实施本技术的技术方案中,本技术通过获取同一预设时间段内同一空间内的视频数据和音频数据,基于视频数据获取视频特征,基于音频数据获取音频特征,根据视频特征和音频特征,获取视频特征的权重和音频特征的权重,基于视频特征的权重和音频特征的权重对视频特征和音频特征进行融合,得到多模态特征,基于多模态特征进行语音端点检测,得到语音端点检测结果。通过上述配置方式,本技术首先获取同一预设时间段内同一空间内的视频数据和音频数据,根据视频数据获取视频特征,根据音频数据获取音频特征,再根据视频特征和音频特征,获取视频特征的权重和音频特征的权重,这样就能够根据视频特征和音频特征的不同权重,获得不同的多模态特征。如,当视频数据质量较高、音频数据质量较低(如存在噪声)时,视频特征的权重会变高;当音频数据质量较高、视频数据质量较低(如存在遮挡)时,音频特征的权重变高。如果权重较低,则再多模态特征中所占的比例会较低,进而使得在应用多模态特征进行端点检测时,既能够提升端点检测的准确性,也能够避免低质量的视频数据或音频数据对于端点检测影响,进而提升语音端点检测的准确性和稳定性。

35、方案1.一种多模态语音端点检测方法,其特征在于,所述方法包括:

36、获取同一预设时间段内同一空间内的视频数据和音频数据;

37、基于所述视频数据获取视频特征,基于所述音频数据获取音频特征;

38、根据所述视频特征和所述音频特征,获取所述视频特征的权重和所述音频特征的权重;

39、基于所述视频特征的权重和所述音频特征的权重对所述视频特征和所述音频特征进行融合,得到所述多模态特征;

40、基于所述多模态特征进行语音端点检测,得到语音端点检测结果。

41、方案2.根据方案1所述的多模态语音端点检测方法,其特征在于,

42、所述基于所述视频特征和所述音频特征,获取所述视频特征的权重和所述音频特征的权重,包括:

43、通过预设的可信赖分数自适应打分模型对所述视频特征和所述音频特征分别进行打分,以分别获得所述视频特征的分数和所述音频特征的分数;

44、基于所述视频特征的分数和所述音频特征的分数,获取所述视频特征的权重和所述音频特征的权重。

45、方案3.根据方案1所述的多模态语音端点检测方法,其特征在于,

46、所述基于所述视频数据获取视频特征,包括:

47、将所述视频数据进行预处理,得到所述视频数据的预处理数据;

48、通过训练完成的视频特征提取模型对所述视频数据的预处理数据进行特征提取,得到所述视频特征。

49、方案4.根据方案3所述的多模态语音端点检测方法,其特征在于,

50、所述方法还包括根据以下步骤对视频特征提取模型进行训练:

51、获取历史视频数据,对所述历史视频数据进行所述预处理,得到所述历史视频数据的预处理数据;

52、对所述历史视频数据的预处理数据进行数据增强处理,获得数据增强后的预处理数据;

53、基于所述数据增强后的预处理数据对所述视频特征提取模型进行训练,得到所述训练完成的视频特征提取模型。

54、方案5.根据方案4所述的多模态语音端点检测方法,其特征在于,

55、所述对所述历史视频数据的预处理数据进行数据增强处理,包括:

56、对所述历史视频数据的预处理数据进行唇部遮挡和/或图像加噪和/或图像模糊处理,以实现所述数据增强处理。

57、方案6.根据方案1所述的多模态语音端点检测方法,其特征在于,

58、所述基于所述音频数据获取音频特征,包括:

59、将所述音频数据进行预处理,得到所述音频数据的预处理数据;

60、通过训练完成的音频特征提取模型对所述音频数据的预处理数据进行特征提取,得到所述音频特征。

61、方案7.根据方案6所述的多模态语音端点检测方法,其特征在于,

62、所述方法还包括根据以下步骤对音频特征提取模型进行训练:

63、获取历史音频数据,对所述历史音频数据进行所述预处理,得到所述历史音频数据的预处理数据;

64、对所述历史音频数据的预处理数据进行数据增强处理,获取数据增强后的预处理数据;

65、基于所述数据增强后的预处理数据对所述音频特征提取模型进行训练,得到所述训练完成的音频特征提取模型。

66、方案8.根据方案7所述的多模态语音端点检测方法,其特征在于,

67、所述对所述历史音频数据的预处理数据进行数据增强处理,包括:

68、对所述历史音频数据的预处理数据进行多说话人数据增强,以实现所述数据增强处理。

69、方案9.一种控制装置,包括至少一个处理器和至少一个存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行方案1至8中任一项所述的多模态语音端点检测方法。

70、方案10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行方案1至8中任一项所述的多模态语音端点检测方法。

71、方案11.一种车辆,其特征在于,所述车辆包括方案9所述的控制装置。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22142.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。