技术新讯 > 乐器声学设备的制造及制作,分析技术 > 对话语音片段的确定方法、装置及电子设备与流程 > 正文

对话语音片段的确定方法、装置及电子设备与流程

国知局
2024-06-21 10:43:51

本公开涉及人工智能，尤其涉及自动驾驶、智能交通、自然语言处理、语音技术等，尤其涉及一种对话语音片段的确定方法、装置及电子设备。

背景技术：

1、目前，车载语音助手在与对话对象的多轮对话过程中的首轮对话或者非首轮对话中，会采集语音并进行识别处理，以确定对话对象的指令。其中，若采集的语音为噪声，则确定得到的指令为无效指令，车载语音助手可能会重复发出之前的对话语音，或者退出多轮对话过程。

2、上述方案中，由于车辆中噪声较多，例如，开关车窗的噪声、方向盘转向噪声等，可能导致多轮对话过程中对话重复或者对话中断，难以获取对话对象的指令并实现指令中的意图，降低了对话效率。

技术实现思路

1、本公开提供了一种对话语音片段的确定方法、装置及电子设备。

2、根据本公开的一方面，提供了一种对话语音片段的确定方法，所述方法包括：获取待处理的语音片段，以及语音片段中各个语音帧对应的音频能量；在语音片段上进行窗口滑动处理，得到语音片段上的多个滑动窗口；根据多个滑动窗口内各个语音帧对应的音频能量，确定多个滑动窗口中的目标滑动窗口；所述目标滑动窗口表示存在对话语音的滑动窗口；在多个滑动窗口中连续的多个所述目标滑动窗口的连续数量大于或者等于预设数量的情况下，将所述语音片段中连续的多个所述目标滑动窗口内语音帧所组成的片段，作为对话语音片段。

3、根据本公开的另一方面，提供了一种对话语音片段的确定装置，所述装置包括：获取模块，用于获取待处理的语音片段，以及所述语音片段中各个语音帧对应的音频能量；第一处理模块，用于在所述语音片段上进行窗口滑动处理，得到所述语音片段上的多个滑动窗口；第一确定模块，用于根据多个滑动窗口内各个语音帧对应的音频能量，确定多个滑动窗口中的目标滑动窗口；所述目标滑动窗口表示存在对话语音的滑动窗口；第二确定模块，用于在多个滑动窗口中连续的多个所述目标滑动窗口的连续数量大于或者等于预设数量的情况下，将所述语音片段中连续的多个所述目标滑动窗口内语音帧所组成的片段，作为对话语音片段。

4、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述提出的对话语音片段的确定方法。

5、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开上述提出的对话语音片段的确定方法。

6、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述提出的对话语音片段的确定方法的步骤。

7、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种对话语音片段的确定方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述根据多个滑动窗口内各个语音帧对应的音频能量，确定多个滑动窗口中的目标滑动窗口，包括：

3.根据权利要求2所述的方法，其中，所述针对所述语音片段上的滑动窗口，根据所述滑动窗口内各个语音帧对应的音频能量，确定所述滑动窗口是否为存在对话语音的目标滑动窗口，还包括：

4.根据权利要求2或3所述的方法，其中，所述预设时长阈值，根据所述滑动窗口的长度、噪声语音的平均长度中的至少一种确定；

5.根据权利要求1所述的方法，其中，所述获取待处理的语音片段，以及所述语音片段中各个语音帧对应的音频能量，包括：

6.根据权利要求1或5所述的方法，其中，所述语音帧对应的音频能量，为所述语音帧在各个频率上的幅度的最大值；或者，

7.根据权利要求1所述的方法，其中，所述方法还包括：

8.根据权利要求1所述的方法，其中，所述语音片段，为与对话对象的多轮对话过程中的首轮对话或者非首轮对话中采集到的语音片段。

9.根据权利要求1所述的方法，其中，所述方法还包括：

10.一种对话语音片段的确定装置，所述装置包括：

11.根据权利要求10所述的装置，其中，所述第一确定模块包括：第一确定单元和第二确定单元；

12.根据权利要求11所述的装置，其中，所述第一确定模块还包括：第三确定单元，用于在所述滑动窗口内未存在连续的多个目标语音帧的情况下，或者，在所述滑动窗口内连续的多个目标语音帧的连续时长小于所述预设时长阈值的情况下，确定所述滑动窗口为存在噪声语音的非目标滑动窗口。

13.根据权利要求11或12所述的装置，其中，所述预设时长阈值，根据所述滑动窗口的长度、噪声语音的平均长度中的至少一种确定；

14.根据权利要求10所述的装置，其中，所述获取模块具体用于，

15.根据权利要求10或14所述的装置，其中，所述语音帧对应的音频能量，为所述语音帧在各个频率上的幅度的最大值；或者，

16.根据权利要求10所述的装置，其中，所述装置还包括：第三确定模块和第二处理模块；

17.根据权利要求10所述的装置，其中，所述语音片段，为与对话对象的多轮对话过程中的首轮对话或者非首轮对话中采集到的语音片段。

18.根据权利要求10所述的装置，其中，所述装置还包括：第三处理模块，用于对所述对话语音片段进行识别处理，得到对话对象的指令，用于根据所述指令进行对话处理。

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的对话语音片段的确定方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的对话语音片段的确定方法。

技术总结本公开提供了对话语音片段的确定方法、装置及电子设备，涉及人工智能技术领域，尤其涉及自动驾驶、智能交通、自然语言处理、语音技术等技术领域。具体实现方案为：获取待处理的语音片段中各个语音帧对应的音频能量；根据语音片段内多个滑动窗口内各个语音帧对应的音频能量，确定多个滑动窗口中存在对话语音的目标滑动窗口；在多个滑动窗口中连续的多个目标滑动窗口的连续数量大于或者等于预设数量的情况下，将语音片段中连续的多个目标滑动窗口内语音帧所组成的片段，作为对话语音片段，从而能够有效地区分对话语音片段和噪声语音片段，避免对噪声语音片段进行识别处理，避免多轮对话过程中的对话重复或者对话中断，提高了对话效率。技术研发人员：朱尊龙受保护的技术使用者：阿波罗智联（北京）科技有限公司技术研发日：技术公布日：2024/2/1