技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音检测方法、装置、设备及可读存储介质与流程 > 正文

一种语音检测方法、装置、设备及可读存储介质与流程

国知局
2024-06-21 11:38:14

本技术涉及音视频处理领域，尤其涉及一种语音检测方法、装置、设备及可读存储介质。

背景技术：

1、随着电子设备的智能化程度越来越高，电子设备提供的功能越来越多，例如视频直播、视频录制等，这些功能需要摄像装置采集包含语音的视频数据。为了获得较清晰的语音效果并应用在对应的业务场景如噪声估计场景中，则需要检测出视频数据中每个数据帧存在语音的概率，从而对视频数据进行噪声估计。

2、目前的语音检测方法一般是通过对整个视频数据中的语音进行检测，确定每个数据帧存在语音的概率，由于多种场景下存在噪音，会导致语音检测准确性较低。

技术实现思路

1、本技术实施例提供一种语音检测方法、装置、设备及可读存储介质，可以提升语音检测准确性。

2、第一方面，本技术提供一种语音检测方法，包括：

3、获取图像数据集，基于该图像数据集确定与该图像数据集关联的音频数据中的起始语音对应的第一数据帧，该图像数据集包括第二数据帧对应的图像数据，该第二数据帧为该第一数据帧或者该第一数据帧之后的任一数据帧；

4、获取该第二数据帧对应的图像数据的图像特征，以及该第二数据帧对应的音频数据的音频特征；

5、基于该第二数据帧对应的图像特征和该第二数据帧对应的音频特征，确定该第二数据帧对应的语音检测结果，该语音检测结果用于指示该第二数据帧存在语音的概率。

6、第二方面，本技术提供了一种语音检测装置，其特征在于，该装置包括：

7、起始语音确定单元，用于获取图像数据集，基于该图像数据集确定与该图像数据集关联的音频数据中的起始语音对应的第一数据帧，该图像数据集包括第二数据帧对应的图像数据，该第二数据帧为该第一数据帧或者该第一数据帧之后的任一数据帧；

8、特征获取单元，用于获取第二数据帧对应的图像数据的图像特征，以及该第二数据帧对应的音频数据的音频特征；

9、语音检测单元，用于基于该第二数据帧对应的图像特征和该第二数据帧对应的音频特征，确定该第二数据帧对应的语音检测结果，该语音检测结果用于指示该第二数据帧存在语音的概率。

10、结合第二方面，在一种可能的实现方式中，该图像数据集包括多个数据帧对应的图像数据；该起始语音确定单元，具体用于：

11、分别提取该多个数据帧中每个数据帧对应的图像数据的图像特征；

12、分别对该每个数据帧对应的图像数据的图像特征进行图像检测，得到每个数据帧对应的图像检测结果，该每个数据帧对应的图像检测结果用于指示该每个数据帧存在语音的概率；

13、获取存在语音的概率大于语音阈值的至少一个待选数据帧，将该至少一个待选数据帧中包括最早时间的数据帧确定为该音频数据中的起始语音对应的第一数据帧。

14、结合第二方面，在一种可能的实现方式中，该语音检测单元，具体用于：

15、对该第二数据帧对应的图像特征进行图像检测得到图像检测结果；

16、对该第二数据帧对应的音频特征进行音频检测得到音频检测结果；

17、基于该图像检测结果和该音频检测结果，确定该第二数据帧对应的语音检测结果。

18、结合第二方面，在一种可能的实现方式中，该语音检测单元，具体用于：

19、识别与该图像数据集关联的目标场景，分别获取该目标场景下图像对应的第一权重和音频对应的第二权重；

20、基于该第一权重、该图像检测结果、该第二权重和该音频检测结果，确定该第二数据帧对应的语音检测结果。

21、结合第二方面，在一种可能的实现方式中，该第二数据帧对应的图像检测结果指示该第二数据帧存在语音的概率小于或等于语音阈值；该语音检测单元，具体用于：

22、分别获取该第二数据帧的前n个数据帧的图像检测结果和该第二数据帧的后m个数据帧的图像检测结果，m和n均为自然数；

23、若该前n个数据帧的图像检测结果指示存在语音的概率均大于该语音阈值，且该后m个数据帧的图像检测结果指示存在语音的概率均大于该语音阈值，则获取该第二数据帧对应的图像检测结果、该前n个数据帧的图像检测结果以及该后m个数据帧的图像检测结果之间的第一语音概率均值，将该第一语音概率均值确定为该第二数据帧对应的图像检测结果。

24、结合第二方面，在一种可能的实现方式中，该语音检测装置还包括网络训练单元，用于：

25、获取样本图像集和样本图像标签；

26、采用初始图像检测网络分别对该样本图像集中的每个样本图像进行特征提取，得到每个样本图像的样本图像特征；

27、对该每个样本图像特征进行图像检测得到每个样本图像的样本图像检测结果；

28、基于该每个样本图像的样本图像检测结果和该样本图像标签训练该初始图像检测网络，得到目标图像检测网络；

29、采用该目标图像检测网络对该第二数据帧对应的图像特征进行图像检测得到图像检测结果。

30、结合第二方面，在一种可能的实现方式中，该网络训练单元，还用于：

31、获取样本音频集和样本音频标签；

32、采用初始音频检测网络分别对该样本音频集中的每个样本音频进行特征提取，得到每个样本音频的样本音频特征；

33、对该每个样本音频特征进行音频检测得到每个样本音频的样本音频检测结果；

34、基于该每个样本音频的样本音频检测结果和该样本音频标签训练该初始音频检测网络，得到目标音频检测网络；

35、采用该目标音频检测网络对该第二数据帧对应的音频特征进行音频检测得到音频检测结果。

36、结合第二方面，在一种可能的实现方式中，该语音检测单元，具体用于：

37、对该第二数据帧对应的图像特征和该第二数据帧对应的音频特征进行特征融合，得到该第二数据帧对应的融合特征；

38、对该融合特征进行语音检测，得到该第二数据帧对应的语音检测结果。

39、结合第二方面，在一种可能的实现方式中，该网络训练单元，还用于：

40、获取样本特征集和样本语音标签集，该样本特征集包括多个数据帧对应的样本音频特征和样本图像特征，该样本语音标签集包括该多个数据帧对应的样本语音标签；

41、采用初始语音检测网络对每个数据帧对应的样本图像特征和样本音频特征进行特征融合，得到该每个数据帧对应的样本融合特征；

42、对该每个数据帧对应的样本融合特征进行语音检测，得到该每个数据帧对应的样本语音检测结果；

43、基于该每个数据帧对应的样本语音检测结果和该样本语音标签集，训练该初始语音检测网络，得到目标语音检测网络；

44、采用该目标语音检测网络对该融合特征进行语音检测，得到该第二数据帧对应的语音检测结果。

45、第三方面，本技术提供了一种计算机设备，包括：处理器、存储器、网络接口；

46、上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序代码，上述处理器用于调用上述计算机程序代码，以使包含该处理器的计算机设备执行上述语音检测方法。

47、第四方面，本技术提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述语音检测方法。

48、第五方面，本技术提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术第一方面中的各种可选方式中提供的语音检测方法。

49、本技术实施例中，通过获取多个数据帧对应的图像数据，可以基于图像数据确定与图像数据关联的音频数据中的起始语音对应的第一数据帧，从而可以获取起始语音对应的第一数据帧以及之后任意数据帧的图像数的特征与音频数据的特征，结合图像数据的特征和音频数据的特征确定任意数据帧对应的语音检测结果，确定任意数据帧存在语音的概率，进而确定整个音频数据中哪些数据帧存在语音，哪些数据帧不存在语音，以及哪些数据帧的语音为噪音。由于使用图像数据确定起始语音对应的数据帧，针对于起始语音对应的数据帧之前的音频数据无需进行音频检测，可以减少数据处理量。进一步地，由于结合图像数据进一步确定音频数据中的语音，可以从两个不同维度对语音进行检测，可以提高语音检测准确性。