一种音频数据处理方法、装置、计算机设备及存储介质与流程
- 国知局
- 2024-06-21 11:52:25
本公开涉及计算机,具体而言,涉及一种音频数据处理方法、装置、计算机设备及存储介质。
背景技术:
1、随着语音交互技术的快速发展,语音交互已经成为人车之间主流的交互方式,所述语音交互场景除了常见的车舱内语音交互场景外,还包括车舱外语音交互场景,而车舱外语音交互场景下,发声用户可以为多人,因此音频采集装置在采集音频数据后需要对音频数据进行音频分离处理。
2、相关技术中,在车舱外语音交互场景下,可以采用训练好的神经网络进行音频分离处理,但这种方式需要占用车辆大量的实时计算资源,且训练相关的神经网络也需要消耗大量的人力物力,处理方式有待改进。
技术实现思路
1、本公开实施例至少提供一种音频数据处理方法、装置、计算机设备及存储介质。
2、第一方面,本公开实施例提供了一种音频数据处理方法,包括:
3、获取部署在目标车辆上不同位置的多个音频采集装置分别采集的待处理音频数据;
4、针对所述多个音频采集装置中的第一音频采集装置,确定与所述第一音频采集装置相邻的至少一个第二音频采集装置;所述第一音频采集装置为所述多个音频采集装置中待滤波的任一音频采集装置;
5、基于所述第一音频采集装置采集的第一音频数据和所述第二音频采集装置采集的第二音频数据在各频点上的频域能量值比较结果,确定所述第一音频数据在各频点上的滤波系数更新控制因子;所述滤波系数更新控制因子用于控制是否更新当前帧音频数据的滤波系数;
6、基于所述滤波系数更新控制因子,确定所述第一音频数据在各频点上对应的滤波系数;
7、基于所述第二音频数据以及所述第一音频数据在各频点上对应的滤波系数,对所述第一音频数据进行滤波处理,得到所述第一音频采集装置的目标音频数据。
8、本方案中,在获取部署在目标车辆上不同位置的多个音频采集装置分别采集的待处理音频数据后,针对待滤波的第一音频采集装置,可以基于所述第一音频采集装置采集的第一音频数据,以及与所述第一音频采集装置相邻的第二音频采集装置采集的第二音频数据在各频点上的频域能量值比较结果,确定出用于控制是否更新当前帧音频数据的滤波系数的滤波系数更新控制因子,从而可以在后续的滤波处理过程中,通过所述滤波系数更新控制因子确定是否对滤波系数进行更新,进而基于确定的滤波系数对所述第一音频数据进行更为精确的滤波处理,实现对待滤波的第一音频数据进行有效的音频分离处理;本公开实施例采用自适应对消的方式进行车外多音区分离,相较于使用神经网络进行音频分离处理的方式,由于本方案中无需执行消耗大量实时计算资源的复杂运算,因此进行音频分离处理所占用的实时计算资源较少,效率较高。
9、一种可能的实施方式中,基于所述第一音频采集装置采集的第一音频数据和所述第二音频采集装置采集的第二音频数据在各频点上的频域能量值比较结果,确定所述第一音频数据在各频点上的滤波系数更新控制因子,包括:
10、基于所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值;
11、基于所述比值,以及所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的滤波系数更新控制因子。
12、这样,由于所述频域能量值比较结果能够表征,此时声源与第一音频采集装置间距离,和声源与第二音频采集装置间距离的关系,因此基于所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值,结合第一音频数据和第二音频数据在各频点上的频域能量值,确定第一音频数据在各频点上的滤波系数更新控制因子,能够有效的根据第一音频采集装置、第二音频采集装置以及声源之间的相对位置关系,对第一音频数据在各频点的滤波过程进行控制,从而实现更精准的滤波处理,能够在复杂音频环境下有效的进行音频数据分离。
13、一种可能的实施方式中,基于所述比值,以及所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的滤波系数更新控制因子,包括:
14、基于所述比值,以及各预设的比值范围与设定比例系数之间的映射关系,确定所述比值对应的设定比例系数;
15、针对每个所述频点,基于所述第二音频数据在该频点上的频域能量值与所述设定比例系数之间的乘积,与所述第一音频数据在该频点上的频域能量值之间的大小比较结果,确定所述第一音频数据在该频点上的滤波系数更新控制因子。
16、这样,基于所述比值,以及各预设的比值范围与设定比例系数之间的映射关系,确定所述比值对应的设定比例系数,并使用所述设定比例系数与所述第二音频数据在各频点上的频域能量值,与所述第一音频数据在各频点上的频域能量值之间的大小比较结果,确定所述第一音频数据在各频点上的滤波系数更新控制因子,可以逐频点的确定出各频点的滤波系数更新控制因子,从而可以在后续滤波过程中实现频点级的滤波控制,实现更为精确的滤波效果,能够在复杂音频环境下有效的进行音频数据分离。
17、一种可能的实施方式中,基于所述滤波系数更新控制因子,确定所述第一音频数据在各频点上对应的滤波系数,包括:
18、针对所述第一音频数据中的当前帧音频数据,基于上一帧音频数据对应的滤波系数,对所述当前帧音频数据进行预滤波处理,得到预滤波处理结果;其中所述第一音频数据中的初始帧音频数据对应的滤波系数为预设的初始化值;
19、基于所述预滤波处理结果以及所述第二音频数据,确定所述第一音频数据的当前帧音频数据对应的增益向量;
20、基于所述滤波系数更新控制因子、所述增益向量和所述预滤波处理结果,确定所述第一音频数据在各频点上对应的滤波系数。
21、这样,通过先进行预滤波处理,并在后续的滤波过程中根据此前确定出的滤波系数更新控制因子、增益向量和所述预滤波处理结果,确定所述第一音频数据在各频点上对应的滤波系数,从而可以在后续的滤波处理过程中根据滤波系数更新控制因子实现更为精确的滤波控制,实现更为精确的滤波效果,能够在复杂音频环境下有效的进行音频数据分离。
22、一种可能的实施方式中,基于所述预滤波处理结果以及所述第二音频数据,确定所述第一音频数据的当前帧音频数据对应的增益向量,包括:
23、基于所述第二音频数据的当前帧音频数据和所述预滤波处理结果,确定初始相关性系数;其中,所述初始相关性系数用于表征第二音频数据的当前帧音频数据与所述第一音频数据的当前帧音频数据的相关性;
24、基于所述第二音频数据的当前帧音频数据和所述预滤波处理结果,分别确定与所述第二音频数据的当前帧音频数据对应的第一归一化系数,以及与所述预滤波处理结果对应的第二归一化系数;
25、基于所述第一归一化系数和第二归一化系数对所述初始相关性系数进行归一化处理,确定归一化处理后的目标相关性系数;
26、基于所述目标相关性系数和所述预滤波处理结果,确定所述增益向量对应的残差加权系数;
27、基于所述增益向量对应的残差加权系数和所述第二音频数据的当前帧音频数据,确定所述第一音频数据的当前帧音频数据对应的增益向量。
28、这样,通过上述计算步骤,可以充分的结合第二音频数据和所述预滤波处理结果,确定出所述第一音频数据的当前帧音频数据对应的增益向量,便于后续更好的将第二音频数据对应的音频内容,从所述第一音频数据对应的音频内容中分离出来,实现较好的音频分离效果。
29、一种可能的实施方式中,基于所述第二音频数据以及所述第一音频数据在各频点上对应的滤波系数,对所述第一音频数据进行滤波处理,得到所述第一音频采集装置的目标音频数据,包括:
30、基于所述第二音频数据以及所述第一音频数据在各频点上对应的滤波系数,在频域下对所述第一音频数据进行滤波处理,得到第一音频采集装置在频域下的待转换音频数据;
31、对所述待转换音频数据进行时域转换处理,得到所述第一音频采集装置的目标音频数据。
32、一种可能的实施方式中,基于所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值,包括:
33、对所述第一音频数据和所述第二音频数据进行频域转换处理,确定所述第一音频数据对应的第一频域信息,以及所述第二音频数据对应的第二频域信息;
34、对所述第一频域信息和所述第二频域信息进行能量平滑处理,得到第一音频数据和所述第二音频数据在各频点上的频域能量值;
35、基于所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值。
36、这样,通过对所述第一频域信息和所述第二频域信息进行能量平滑处理,能够有效的去除噪声和异常值,从而得到更平滑可靠的频域能量值,从而在使用能量平滑处理后的频域能量值确定所述比值时,可以更准确的确定出第一音频数据和第二音频数据在频域能量值层面的比值,进而能够更准确的确定出滤波系数更新控制因子。
37、第二方面,本公开实施例还提供一种音频数据处理装置,包括:
38、获取模块,用于获取部署在目标车辆上不同位置的多个音频采集装置分别采集的待处理音频数据;
39、第一确定模块,用于针对所述多个音频采集装置中的第一音频采集装置,确定与所述第一音频采集装置相邻的至少一个第二音频采集装置;所述第一音频采集装置为所述多个音频采集装置中待滤波的任一音频采集装置;
40、第二确定模块,用于基于所述第一音频采集装置采集的第一音频数据和所述第二音频采集装置采集的第二音频数据在各频点上的频域能量值比较结果,确定所述第一音频数据在各频点上的滤波系数更新控制因子;所述滤波系数更新控制因子用于控制是否更新当前帧音频数据的滤波系数;
41、第三确定模块,用于基于所述滤波系数更新控制因子,确定所述第一音频数据在各频点上对应的滤波系数;
42、滤波模块,用于基于所述第二音频数据以及所述第一音频数据在各频点上对应的滤波系数,对所述第一音频数据进行滤波处理,得到所述第一音频采集装置的目标音频数据。
43、一种可能的实施方式中,所述第二确定模块,在基于所述第一音频采集装置采集的第一音频数据和所述第二音频采集装置采集的第二音频数据在各频点上的频域能量值比较结果,确定所述第一音频数据在各频点上的滤波系数更新控制因子时,用于:
44、基于所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值;
45、基于所述比值,以及所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的滤波系数更新控制因子。
46、一种可能的实施方式中,所述第二确定模块,在基于所述比值,以及所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的滤波系数更新控制因子时,用于:
47、基于所述比值,以及各预设的比值范围与设定比例系数之间的映射关系,确定所述比值对应的设定比例系数;
48、针对每个所述频点,基于所述第二音频数据在该频点上的频域能量值与所述设定比例系数之间的乘积,与所述第一音频数据在该频点上的频域能量值之间的大小比较结果,确定所述第一音频数据在该频点上的滤波系数更新控制因子。
49、一种可能的实施方式中,所述第三确定模块,在基于所述滤波系数更新控制因子,确定所述第一音频数据在各频点上对应的滤波系数时,用于:
50、针对所述第一音频数据中的当前帧音频数据,基于上一帧音频数据对应的滤波系数,对所述当前帧音频数据进行预滤波处理,得到预滤波处理结果;其中所述第一音频数据中的初始帧音频数据对应的滤波系数为预设的初始化值;
51、基于所述预滤波处理结果以及所述第二音频数据,确定所述第一音频数据的当前帧音频数据对应的增益向量;
52、基于所述滤波系数更新控制因子、所述增益向量和所述预滤波处理结果,确定所述第一音频数据在各频点上对应的滤波系数。
53、一种可能的实施方式中,所述第三确定模块,在基于所述预滤波处理结果以及所述第二音频数据,确定所述第一音频数据的当前帧音频数据对应的增益向量时,用于:
54、基于所述第二音频数据的当前帧音频数据和所述预滤波处理结果,确定初始相关性系数;其中,所述初始相关性系数用于表征第二音频数据的当前帧音频数据与所述第一音频数据的当前帧音频数据的相关性;
55、基于所述第二音频数据的当前帧音频数据和所述预滤波处理结果,分别确定与所述第二音频数据的当前帧音频数据对应的第一归一化系数,以及与所述预滤波处理结果对应的第二归一化系数;
56、基于所述第一归一化系数和第二归一化系数对所述初始相关性系数进行归一化处理,确定归一化处理后的目标相关性系数;
57、基于所述目标相关性系数和所述预滤波处理结果,确定所述增益向量对应的残差加权系数;
58、基于所述增益向量对应的残差加权系数和所述第二音频数据的当前帧音频数据,确定所述第一音频数据的当前帧音频数据对应的增益向量。
59、一种可能的实施方式中,所述滤波模块,在基于所述第二音频数据以及所述第一音频数据在各频点上对应的滤波系数,对所述第一音频数据进行滤波处理,得到所述第一音频采集装置的目标音频数据时,用于:
60、基于所述第二音频数据以及所述第一音频数据在各频点上对应的滤波系数,在频域下对所述第一音频数据进行滤波处理,得到第一音频采集装置在频域下的待转换音频数据;
61、对所述待转换音频数据进行时域转换处理,得到所述第一音频采集装置的目标音频数据。
62、一种可能的实施方式中,所述第二确定模块,在基于所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值时,用于:
63、对所述第一音频数据和所述第二音频数据进行频域转换处理,确定所述第一音频数据对应的第一频域信息,以及所述第二音频数据对应的第二频域信息;
64、对所述第一频域信息和所述第二频域信息进行能量平滑处理,得到第一音频数据和所述第二音频数据在各频点上的频域能量值;
65、基于所述第一音频数据和所述第二音频数据在各频点上的频域能量值,确定所述第一音频数据在各频点上的第一频域能量值总和,与所述第二音频数据在各频点上的第二频域能量值总和之间的比值。
66、第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
67、第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
68、关于上述音频数据处理装置、计算机设备、及计算机可读存储介质的效果描述参见上述音频数据处理方法的说明,这里不再赘述。
69、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24154.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表