技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、设备及介质与流程 > 正文

语音处理方法、装置、设备及介质与流程

国知局
2024-06-21 11:28:53

本申请涉及语音处理，具体提供一种语音处理方法、装置、设备及介质。

背景技术：

1、语音交互系统已成为智能座舱必不可少的模块，但车载语音交互效果受到电动机、多媒体、空调、人声等车内噪音的严重影响，大大增加了语音交互系统对用户语音的识别难度。基于此为了保障用户在车载场景的唤醒率，现有技术中通常在语音交互系统中增加前端语音处理模块(ecnr：echo cancellation and noise reduction)，该模块能够抑制环境噪音并增强有效的语音信号，再将将处理后的音频信号送到唤醒引擎做唤醒处理。

2、受限于前端语音处理模块(ecnr)算法的局限性，语音交互系统非人声所在方位的麦克风所收集的音频在处理后仍然会残留一定的唤醒词，因此为正确定位出人声所在方位，通常需要对所有通道都进行唤醒词触发后再进行下一步的判断。但是如果对所有通道都进行唤醒词触发则容易导致等待时间过长，从而引入较大延迟，严重影响较好体验；而如果直接将最先触发唤醒词的通道作为人声所在方位，又会导致定位准确率急剧下降。

3、相应地，本领域需要一种新的语音处理方法来解决上述问题。

技术实现思路

1、本申请旨在解决上述技术问题，即解决现有的语音处理方法无法平衡语音交互响应速度与声源定位准确率的问题。

2、为了实现上述目的，在第一方面，本申请提供了一种语音处理方法，应用于驾驶设备，所述方法包含以下步骤：

3、获取所述驾驶设备内的多路音频数据；

4、当第一路音频数据首个触发唤醒词时，获取第一能量值以及第二能量值并将所述第一能量值与所述第二能量值进行比较，其中所述第一能量值为所述第一路音频数据对应的能量值，所述第二能量值为所述多路音频数据中其余路音频数据对应的能量值；

5、若所述第一能量值大于等于所述第二能量值，则无需所述其余路音频数据进行唤醒词触发；

6、若所述第一能量值小于所述第二能量值，则动态分配所述其余路音频数据的唤醒词触发时长。

7、在上述语音处理方法的可选技术方案中，所述获取第一能量值以及第二能量值之前，所述方法还包括：

8、基于预设规则分别对所述第一路音频数据以及所述其余路音频数据进行筛选。

9、在上述语音处理方法的可选技术方案中，所述第一路音频数据以及所述其余路音频数据分别包含多个采样点，“基于预设规则分别对所述第一路音频数据以及所述其余路音频数据进行筛选”的步骤包括：

10、分别对所述第一路音频数据和所述其余路音频数据的多个采样点进行预设能量值筛选；

11、完成所述预设能量值筛选后，分别对所述第一路音频数据和所述其余路音频数据进行预设时长筛选。

12、在上述语音处理方法的可选技术方案中，“分别对所述第一路音频数据和所述其余路音频数据的多个采样点进行预设能量值筛选”的步骤包括：

13、分别对所述第一路音频数据和所述其余路音频数据中的每个采样点进行第一预设能量值筛选；

14、或者，分别对所述第一路音频数据和所述其余路音频数据中的预设个采样点进行第二预设能量值筛选。

15、在上述语音处理方法的可选技术方案中，所述基于预设规则分别对所述第一路音频数据以及所述其余路音频数据进行筛选之前，所述方法还包括：

16、基于所述唤醒词对所述第一路音频数据进行筛选，以获取只包含所述唤醒词的第一路音频数据；

17、获取所述只包含所述唤醒词的第一路音频数据对应的时间区域，并基于所述时间区域对所述其余路音频数据进行筛选。

18、在上述语音处理方法的可选技术方案中，“动态分配所述其余路音频数据的唤醒词触发时长”的步骤包括：

19、获取所述第一能量值与所述第二能量值之间的差值；

20、基于所述差值，动态分配所述其余路音频数据的唤醒词触发时长。

21、在上述语音处理方法的可选技术方案中，所述其余路音频数据包含x路音频数据，其中x大于1且x为正整数，所述动态分配所述其余路音频数据的唤醒词触发时长之后，所述方法还包括：

22、当所述其余路音频数据中的y路音频数据触发所述唤醒词时，将所述y路音频数据对应的能量值进行比较，其中y大于1小于等于x，且y为正整数；

23、基于所述y路音频数据对应的能量值的比较结果，确定用户所在方位。

24、在第二方面，本申请还提供了一种语音处理装置，应用于驾驶设备，所述装置包括：

25、音频数据获取模块，被配置为获取所述驾驶设备内的多路音频数据；

26、能量值获取与比较模块，被配置为当第一路音频数据首个触发唤醒词时，获取第一能量值以及第二能量值并将所述第一能量值与所述第二能量值进行比较，其中所述第一能量值为所述第一路音频数据对应的能量值，所述第二能量值为所述多路音频数据中其余路音频数据对应的能量值；

27、第一处理模块，被配置为若所述第一能量值大于等于所述第二能量值，则无需所述其余路音频数据进行唤醒词触发；

28、第二处理模块，被配置为若所述第一能量值小于所述第二能量值，则动态分配所述其余路音频数据的唤醒词触发时长。

29、在第三方面，本申请还提供了一种计算机设备，所述计算机设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述中任一项所述的语音处理方法。

30、在第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述中任一项所述的语音处理方法。

31、本领域技术人员能够理解的是，在本申请的技术方案中通过获取驾驶设备内的多路音频数据；当第一路音频数据首个触发唤醒词时，获取第一能量值以及第二能量值并将第一能量值与第二能量值进行比较，其中第一能量值为第一路音频数据对应的能量值，第二能量值为多路音频数据中其余路音频数据对应的能量值；若第一能量值大于等于第二能量值，则无需其余路音频数据进行唤醒词触发；若第一能量值小于第二能量值，则动态分配其余路音频数据的唤醒词触发时长。这样的设置能够在尽可能保证声源定位准确性的前提下减小交互等待时长，提升了用户的使用体验。

32、进一步地，第一路音频数据以及其余路音频数据分别包含多个采样点，基于预设规则分别对第一路音频数据以及其余路音频数据进行筛选包括：分别对第一路音频数据和其余路音频数据的多个采样点进行预设能量值筛选；完成预设能量值筛选后，分别对第一路音频数据和其余路音频数据进行预设时长筛选。这样的设置能够避免由于用户的发音方式影响音频能量值的计算，从而给基于能量值进行唤醒词触发时长的分配造成干扰，进一步提升了用户的使用体验。

技术特征：

1.一种语音处理方法，应用于驾驶设备，其特征在于，所述方法包含以下步骤：

2.根据权利要求1所述的语音处理方法，其特征在于，所述获取第一能量值以及第二能量值之前，所述方法还包括：

3.根据权利要求2所述的语音处理方法，其特征在于，所述第一路音频数据以及所述其余路音频数据分别包含多个采样点，“基于预设规则分别对所述第一路音频数据以及所述其余路音频数据进行筛选”的步骤包括：

4.根据权利要求3所述的语音处理方法，其特征在于，“分别对所述第一路音频数据和所述其余路音频数据的多个采样点进行预设能量值筛选”的步骤包括：

5.根据权利要求2所述的语音处理方法，其特征在于，所述基于预设规则分别对所述第一路音频数据以及所述其余路音频数据进行筛选之前，所述方法还包括：

6.根据权利要求1所述的语音处理方法，其特征在于，“动态分配所述其余路音频数据的唤醒词触发时长”的步骤包括：

7.根据权利要求1所述的语音处理方法，其特征在于，所述其余路音频数据包含x路音频数据，其中x大于1且x为正整数，所述动态分配所述其余路音频数据的唤醒词触发时长之后，所述方法还包括：

8.一种语音处理装置，应用于驾驶设备，其特征在于，所述装置包括：

9.一种计算机设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的语音处理方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的语音处理方法。

技术总结本申请涉及语音处理技术领域，具体提供一种语音处理方法、装置、设备及介质，旨在解决现有的语音处理方法无法平衡语音交互响应速度与声源定位准确率的问题。为此目的，本申请通过获取驾驶设备内的多路音频数据；当第一路音频数据首个触发唤醒词时，获取第一能量值以及第二能量值并将第一能量值与第二能量值进行比较，其中第一能量值为第一路音频数据对应的能量值，第二能量值为多路音频数据中其余路音频数据对应的能量值；若第一能量值大于等于第二能量值，则无需其余路音频数据进行唤醒词触发，否则则动态分配其余路音频数据的唤醒词触发时长。这样的设置能够在尽可能保证声源定位准确性的前提下减小交互等待时长。技术研发人员：韩卫生,李亮,朱林,魏娟受保护的技术使用者：蔚来汽车科技（安徽）有限公司技术研发日：技术公布日：2024/2/19