技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种车载多音区交互方法、装置、电子设备和存储介质与流程 > 正文

一种车载多音区交互方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:40:52

本发明涉及车载多音区交互，具体涉及一种车载多音区交互方法、装置、电子设备和存储介质。

背景技术：

1、目前，车载语音分离有两种方法，一种是利用波束形成技术或盲源分离技术完成多音区语音分离。波束形成技术对于来自其他音区的干扰抑制不够充分，容易引起其他音区的误识别；而盲源分离技术通过求解分离矩阵实现各音区信号分离，但其输出通道顺序存在不确定性。上述两种语音分离方法容易导致车载交互不准确，并且现有技术中车载交互各个音区均混在一起，用户体验差。

技术实现思路

1、本发明提供一种车载多音区交互方法、装置、电子设备和存储介质，能够解决上述技术问题。

2、第一方面，本发明实施例提供一种车载多音区交互方法，包括：

3、获取麦克风接收信号以及参考信号；

4、将麦克风接收信号以及参考信号转换至短时时频域；

5、将转换至短时时频域的信号进行回声消除；

6、判断回声消除后的信号属于哪个音区；

7、分离回声消除后的信号得到每个音区的分离信号；

8、对每个音区的分离信号转换得到每个音区最终的时域输出；

9、根据每个音区最终的时域输出确定音区信号的实际唤醒位置；

10、将实际唤醒位置的信号输入识别引擎，识别指令并操作；

11、完成相应指令操作后，通过tts反馈，完成语音交互。

12、进一步地，上述一种车载多音区交互方法中，将麦克风接收信号以及参考信号转换至短时时频域，包括：

13、将麦克风接收信号以及参考信号进行短时傅里叶变换转换至短时时频域。

14、进一步地，上述一种车载多音区交互方法中，将转换至短时时频域的信号进行回声消除，包括：

15、对转换至短时时频域的信号进行线性回声消除；

16、对线性回声消除后的信号进行残余回声抑制；

17、其中，回声消除通过自适应滤波方法实现，残余回声抑制通过深度学习方式实现残余回声及非人声噪声抑制。

18、进一步地，上述一种车载多音区交互方法中，判断回声消除后的信号属于哪个音区，包括：

19、根据回声消除后的信号计算回声消除后的信号能量；

20、根据各麦克风之间的距离通过广义互相关方法计算回声消除后的信号不同麦克风对的时延；

21、根据回声消除后的信号能量和回声消除后的信号不同麦克风对的时延判断回声消除后的信号属于哪个音区。

22、进一步地，上述一种车载多音区交互方法中，分离所述回声消除后的信号得到每个音区的分离信号，包括：音区一级分离和音区二级分离；

23、音区一级分离，包括：如果当前回声消除后的信号属于第一音区，则控制第一音区相应的自适应滤波器不更新；如果当前回声消除后的信号不属于第一音区，则控制第一音区相应的自适应滤波器进行更新，对第一音区外的信号进行抑制；

24、音区二级分离，包括：将第一音区对应信号作为近端信号，其他音区对应信号作为远端信号，送入自适应滤波器，对其他音区信号进一步抑制，得到各音区最终的分离信号。

25、进一步地，上述一种车载多音区交互方法中，对每个音区的输出信号转换得到每个音区最终的时域输出，包括：

26、对每个音区的输出信号进行短时傅里叶逆变换得到每个音区最终的时域输出。。

27、进一步地，上述一种车载多音区交互方法中，根据每个音区最终的时域输出确定音区信号的唤醒位置，包括：

28、将每个音区最终的时域输出送入唤醒引擎，将时域输出的数据进行缓存；

29、判断是否只有一个位置唤醒，若是，无需计算唤醒词能量，将对应位置作为实际唤醒位置；

30、若有多个位置唤醒，则计算每个唤醒位置对应唤醒时间的信号能量，确定信号能量最大的位置为实际唤醒位置。

31、第二方面，本发明实施例还提供一种车载多音区交互装置，包括：

32、获取模块：用于获取麦克风接收信号以及参考信号；

33、第一转换模块：用于将麦克风接收信号以及参考信号转换至短时时频域；

34、回声消除模块：用于将转换至短时时频域的信号进行回声消除；

35、判断模块：用于判断回声消除后的信号属于哪个音区；

36、分离模块：用于分离回声消除后的信号得到每个音区的分离信号；

37、第二转换模块：用于对每个音区的分离信号转换得到每个音区最终的时域输出；

38、确定模块：用于根据每个音区最终的时域输出确定音区信号的实际唤醒位置；

39、输入模块：用于将实际唤醒位置的信号输入识别引擎，识别指令并操作；

40、语音交互模块：用于完成相应指令操作后，通过tts反馈，完成语音交互。

41、第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

42、处理器通过调用存储器存储的程序或指令，用于执行如上任一项一种车载多音区交互方法。

43、第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储程序或指令，程序或指令使计算机执行如上任一项一种车载多音区交互方法。

44、本发明的有益效果是：本发明通过获取麦克风接收信号以及参考信号；将麦克风接收信号以及参考信号转换至短时时频域；将转换至短时时频域的信号进行回声消除；判断回声消除后的信号属于哪个音区；分离回声消除后的信号得到每个音区的分离信号；对每个音区的分离信号转换得到每个音区最终的时域输出；根据每个音区最终的时域输出确定音区信号的实际唤醒位置；将实际唤醒位置的信号输入识别引擎完成语音交互。本发明对每个音区的信号进行分离，通过分离后的信号送入对应的唤醒引擎确定实际唤醒位置，将实际唤醒位置的信号输入识别引擎，由此完成车载多音区交互，从而实现各个音区的单独交互。

技术特征：

1.一种车载多音区交互方法，其特征在于，包括：

2.根据权利要求1所述的一种车载多音区交互方法，其特征在于，所述将所述麦克风接收信号以及参考信号转换至短时时频域，包括：

3.根据权利要求1所述的一种车载多音区交互方法，其特征在于，所述将转换至短时时频域的信号进行回声消除，包括：

4.根据权利要求1所述的一种车载多音区交互方法，其特征在于，所述判断回声消除后的信号属于哪个音区，包括：

5.根据权利要求1所述的一种车载多音区交互方法，其特征在于，所述分离所述回声消除后的信号得到每个音区的分离信号，包括：音区一级分离和音区二级分离；

6.根据权利要求1所述的一种车载多音区交互方法，其特征在于，所述对所述每个音区的输出信号转换得到每个音区最终的时域输出，包括：

7.根据权利要求1所述的一种车载多音区交互方法，其特征在于，所述根据每个音区最终的时域输出确定音区信号的唤醒位置，包括：

8.一种车载多音区交互装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种车载多音区交互方法。

技术总结本发明涉及一种车载多音区交互方法、装置、电子设备和存储介质，该方法包括：获取麦克风接收信号以及参考信号；将麦克风接收信号以及参考信号转换至短时时频域；将转换至短时时频域的信号进行回声消除；判断回声消除后的信号属于哪个音区；分离回声消除后的信号得到每个音区的分离信号；对每个音区的分离信号转换得到每个音区最终的时域输出；根据每个音区最终的时域输出确定音区信号的实际唤醒位置；将实际唤醒位置的信号输入识别引擎完成语音交互。本发明对每个音区的信号进行分离，通过分离后的信号送入对应的唤醒引擎确定实际唤醒位置，将实际唤醒位置的信号输入识别引擎，由此完成车载多音区交互，从而实现各个音区的单独交互。技术研发人员：丁少为,关海欣,梁家恩受保护的技术使用者：云知声智能科技股份有限公司技术研发日：技术公布日：2024/3/31