技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音活动检测方法及装置与流程  >  正文

语音活动检测方法及装置与流程

  • 国知局
  • 2024-06-21 11:51:35

本技术实施例涉及音频处理等,尤其涉及一种语音活动检测方法及装置。

背景技术:

1、音频编码器用于对音频信息进行编码,以使语音在链路产生误码、网络抖动和突发传输时具有健壮性。

2、在音频编码器对音频信息进行编码之前,通常语音活动检测(voice activitydetection,vad)技术检测音频信息的语音活动。

3、目前,vad技术仅可以检测持续时间较短的音频信息(即短音频信息)的语音活动。

技术实现思路

1、本技术实施例提供一种语音活动检测方法及装置,用于实现检测长音频信息的语音活动。

2、第一方面,本技术实施例提供一种语音活动检测方法,包括:

3、获取长音频信息,长音频信息中包括多段短音频信息;

4、根据每段短音频信息的第一音频标识,确定长音频信息的第二音频标识;其中,音频标识指示对应的音频信息是否存在语音活动。

5、在一种可能的实施方式中,根据每段短音频信息的第一音频标识,确定长音频信息的第二音频标识,包括:

6、根据每段短音频信息的第一音频标识,确定长音频信息的目标标识序列;

7、根据目标标识序列,确定长音频信息的第二音频标识。

8、在一种可能的实施方式中,根据每段短音频信息的第一音频标识,确定长音频信息的目标标识序列,包括:

9、获取初始标识序列,初始标识序列中包括每段短音频信息的第一音频标识;

10、对初始标识序列进行纠错处理,得到目标标识序列。

11、在一种可能的实施方式中,根据目标标识序列,确定长音频信息的第二音频标识,包括:

12、确定目标标识序列中第一音频标识为第一标识的数量;其中,第一标识指示对应的短音频信息存在语音活动;

13、根据数量,确定第二音频标识。

14、在一种可能的实施方式中,在数量满足第一条件时,第二音频标识为第三标识,第三标识指示长音频信息存在语音活动;和/或,

15、在数量不满足第一条件时,确定第二音频标识为第四标识,第四标识指示长音频信息不存在语音活动。

16、在一种可能的实施方式中,第一条件为数量大于第一阈值。

17、在一种可能的实施方式中,在目标标识序列中依次相邻的预设数量个第一音频标识和数量满足第二条件时,第二音频标识为第三标识,第三标识指示长音频信息存在语音活动;和/或,

18、在预设数量个第一音频标识和数量不满足第二条件时,第二音频标识为第四标识,第四标识指示长音频信息不存在语音活动。

19、在一种可能的实施方式中,第二条件包括:预设数量个第一音频标识均为第一标识、以及数量等于第一阈值。

20、在一种可能的实施方式中,预设数量个第一音频标识为目标标识序列中的前预设数量个第一音频标识;或者,

21、预设数量个第一音频标识为目标标识序列中的后预设数量个第一音频标识。

22、在一种可能的实施方式中,短音频信息的帧长度为第一帧长度;长音频信息的帧长度为第二帧长度;第二帧长度为第一帧长度的整数倍。

23、在一种可能的实施方式中,该方法还包括:按照第二音频标识对应的编码速度,对长音频信息进行编码。

24、在一种可能的实施方式中,对长音频信息进行编码的音频编码器为人工智能编码器。

25、第二方面,本技术实施例提供一种语音活动检测装置,包括:

26、获取模块,用于获取长音频信息,长音频信息中包括多段短音频信息;

27、确定模块,用于根据长音频信息中的每段短音频信息的第一音频标识,确定长音频信息的第二音频标识;其中,音频标识指示对应的音频信息是否存在语音活动。

28、在一种可能的实施方式中,确定模块具体用于:根据每段短音频信息的第一音频标识,确定长音频信息的目标标识序列;

29、根据目标标识序列,确定长音频信息的第二音频标识。

30、在一种可能的实施方式中,确定模块具体用于:获取初始标识序列,初始标识序列中包括每段短音频信息的第一音频标识;对初始标识序列进行纠错处理,得到目标标识序列。

31、在一种可能的实施方式中,确定模块具体用于:确定目标标识序列中第一音频标识为第一标识的数量;其中,第一标识指示对应的短音频信息存在语音活动;根据数量,确定第二音频标识。

32、在一种可能的实施方式中,在数量满足第一条件时,第二音频标识为第三标识,第三标识指示长音频信息存在语音活动;和/或,在数量不满足第一条件时,第二音频标识为第四标识,第四标识指示长音频信息不存在语音活动。

33、在一种可能的实施方式中,第一条件为数量大于第一阈值。

34、在一种可能的实施方式中,在目标标识序列中依次相邻的预设数量个第一音频标识和数量满足第二条件时,第二音频标识为第三标识,第三标识指示长音频信息存在语音活动;和/或,在预设数量个第一音频标识和数量不满足第二条件时,第二音频标识为第四标识,第四标识指示长音频信息不存在语音活动。

35、在一种可能的实施方式中,第二条件包括:预设数量个第一音频标识均为第一标识、以及数量等于第一阈值。

36、在一种可能的实施方式中,预设数量个第一音频标识为目标标识序列中的前预设数量个第一音频标识;或者,预设数量个第一音频标识为目标标识序列中的后预设数量个第一音频标识。

37、在一种可能的实施方式中,短音频信息的帧长度为第一帧长度;长音频信息的帧长度为第二帧长度;第二帧长度为第一帧长度的整数倍。

38、在一种可能的实施方式中,该装置还包括:

39、音频编码器,按照第二音频标识对应的编码速度,对长音频信息进行编码。

40、在一种可能的实施方式中,音频编码器为人工智能编码器。

41、第三方面,本技术实施例提供一种语音活动检测装置,包括:存储器和处理器;

42、存储器存储计算机执行指令;

43、处理器执行存储器存储的计算机执行指令,使得处理器执行第一方面以及第一方面中任一项的方法。

44、第四方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时用于实现第一方面以及第一方面中任一项的方法。

45、第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项以及第一方面中的方法。

46、第六方面,本技术实施例提供一种芯片,芯片上存储有计算机程序,计算机程序被芯片执行时,实现第一方面以及第一方面中任一项的方法。

47、第七方面,本技术实施例提供一种芯片模组,芯片模组上存储有计算机程序,计算机程序被芯片模组执行时,实现如第一方面以及第一方面中任一项的方法。

48、本技术实施例提供一种语音活动检测方法及装置,该方法包括:获取长音频信息,长音频信息中包括多段短音频信息;根据每段短音频信息的第一音频标识,确定长音频信息的第二音频标识;其中,音频标识指示对应的音频信息是否存在语音活动,可以实现对长音频信息进行语音活动检测。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24040.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。