技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频信号处理方法、装置、设备、车辆以及存储介质与流程  >  正文

音频信号处理方法、装置、设备、车辆以及存储介质与流程

  • 国知局
  • 2024-06-21 11:30:36

本公开涉及音频处理,具体而言,涉及一种音频信号处理方法、装置、电子设备、车辆以及存储介质。

背景技术:

1、随着互联网和智能终端的发展,智能车辆的应用也越来越广泛,用户可以通过语音与车载终端进行交互,实现用户需求。为了提升用户交互体验,车载终端会根据在的不同区域的用户发出的语音信号,执行相应的反馈操作。例如,位于主驾驶位的用户需要打开座椅加热功能,车载终端将识别主驾驶位的用户的语音指令,并执行相应的操作,打开主驾驶座位的座椅加热功能。

2、为了实现这个效果,通常需要对采集的语音信号进行音区定位处理,也即,要识别出各个音区对应的目标语音信号,因此,如何提升各个音区输出语音信号的准确性,是业界一直追求的目标。

技术实现思路

1、本公开实施例至少提供一种音频信号处理方法、装置、电子设备、车辆以及存储介质,可以利用预先训练好的音频信号处理模型对多路音频信号进行回声消除处理以及音区分离处理,进而可以提升各个音区输出语音信号的准确性。

2、本公开实施例提供了一种音频信号处理方法,包括:

3、通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区,所述音频信号包括近端语音信号以及回声信号;

4、获取回声参考信号,并将所述多路音频信号以及所述回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

5、在一种可能的实施方式中,所述音频信号处理模型通过以下步骤训练得到:

6、获取训练样本集,所述训练样本集包括多个训练样本子集,每个训练样本子集包括多路音频样本信号,所述多路音频样本信号对应同一车内环境,每路音频样本信号对应一个车载拾音装置,且每个车载拾音装置对应一个车内环境音区;

7、获取待训练的音频信号处理模型,并基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型。

8、在一种可能的实施方式中,所述基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型,包括:

9、将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,其中,每路预测语音信号分别对应一个车内环境音区;

10、基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,并基于所述目标损失调整所述待训练的音频信号处理模型的模型参数;

11、重复上述步骤,直到训练结果符合预设要求,得到所述训练好的音频信号处理模型。

12、在一种可能的实施方式中,所述基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,包括:

13、基于所述预设的损失函数分别确定每路预测语音信号与对应的样本标签之间的第一损失,并基于各个第一损失确定所述目标损失。

14、在一种可能的实施方式中,所述待训练的音频信号处理模型包括编码模块、映射模块以及解码模块;所述将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,包括:

15、针对每路音频样本信号,基于所述编码模块对所述音频样本信号以及与所述音频样本信号对应的样本标签分别进行特征提取,得到与所述音频样本信号对应的第一特征向量以及与所述样本标签对应的第二特征向量;

16、将所述第一特征向量以及所述第二特征向量输入至映射模块,以根据所述第二特征向量对所述第一特征向量进行映射处理,得到与所述第一特征向量对应的预测特征向量;

17、基于解码模块对各个预测特征量分别进行解码处理得到所述多路预测语音信号。

18、本公开实施例还提供了一种语音交互方法,应用于车辆,所述车辆内设置有多个拾音装置,所述方法包括:

19、获取各个目标环境音区分别对应的目标语音信号,所述目标语音信号采用上述任一所述的音频信号处理方法得到;

20、针对每一路目标语音信号,对所述目标语音信号进行语音识别处理得到语音识别结果;

21、基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。

22、本公开实施例提供了一种音频信号处理装置,包括:

23、信号采集模块,用于通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区,所述音频信号包括近端语音信号以及回声信号;

24、信号处理模块,用于获取回声参考信号,并将所述多路音频信号以及所述回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

25、在一种可能的实施方式中,所述信号处理模块具体用于:

26、获取训练样本集,所述训练样本集包括多个训练样本子集,每个训练样本子集包括多路音频样本信号,所述多路音频样本信号对应同一车内环境,每路音频样本信号对应一个车载拾音装置,且每个车载拾音装置对应一个车内环境音区;

27、获取待训练的音频信号处理模型,并基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型。

28、在一种可能的实施方式中,所述信号处理模块具体用于:

29、将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,其中,每路预测语音信号分别对应一个车内环境音区;

30、基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,并基于所述目标损失调整所述待训练的音频信号处理模型的模型参数;

31、重复上述步骤,直到训练结果符合预设要求,得到所述训练好的音频信号处理模型。

32、在一种可能的实施方式中,所述信号处理模块具体用于:

33、基于所述预设的损失函数分别确定每路预测语音信号与对应的样本标签之间的第一损失,并基于各个第一损失确定所述目标损失。

34、在一种可能的实施方式中,所述待训练的音频信号处理模型包括编码模块、映射模块以及解码模块;所述信号处理模块具体用于:

35、针对每路音频样本信号,基于所述编码模块对所述音频样本信号以及与所述音频样本信号对应的样本标签分别进行特征提取,得到与所述音频样本信号对应的第一特征向量以及与所述样本标签对应的第二特征向量;

36、将所述第一特征向量以及所述第二特征向量输入至映射模块,以根据所述第二特征向量对所述第一特征向量进行映射处理,得到与所述第一特征向量对应的预测特征向量;

37、基于解码模块对各个预测特征量分别进行解码处理得到所述多路预测语音信号。

38、本公开实施例还提供了一种语音交互装置,应用于车辆,所述车辆内设置有多个拾音装置,所述装置包括:

39、信号获取模块,用于获取各个目标环境音区分别对应的目标语音信号,所述目标语音信号采用上述音频信号处理装置得到;

40、语音识别模块,用于针对每一路目标语音信号,对所述目标语音信号进行语音识别处理得到语音识别结果;

41、操作执行模块,用于基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。

42、本公开实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任一可能的实施方式中所述的音频信号处理方法或者上述所述的语音交互方法。

43、本公开实施例提供了一种车辆,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任一可能的实施方式中所述的音频信号处理方法或者上述所述的语音交互方法。

44、本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现如上述任一可能的实施方式中所述的音频信号处理方法或者上述所述的语音交互方法。

45、本公开实施例中所提供的音频信号处理方法、装置、电子设备、车辆以及存储介质,首先通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到包括近端语音信号以及回声信号的多路音频信号;接着获取回声参考信号,然后将多路音频信号以及回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

46、这样,由于训练好的音频信号处理模型是基于多路音频样本信号经有监督训练得到的,而多路音频样本信号是车内环境的人声样本信号与回声参考样本信号经混合处理后得到,因此,将多路音频信号以及所述回声参考信号输入训练好的音频信号处理模型内,不仅可以消除回声,还可以实现音区分离,进而得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号。如此,由于目标语音信号中的回声被滤除了,可以提升语音识别的精度,此外,模型输出的多路目标语音信号是与各个目标环境音区对应的,因此,可以提升各个音区输出语音信号的准确性,进而提升了位于车内环境中不同目标环境音区的用户的语音交互的准确性,从而提升用户体验。

47、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21963.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。