技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种智能语音交互方法及装置与流程 > 正文

一种智能语音交互方法及装置与流程

国知局
2024-06-21 11:47:16

本技术涉及人工智能，具体涉及一种智能语音交互方法及装置。

背景技术：

1、随着人工智能技术的迅速发展，智能语音交互技术如今被广泛地应用至日常工作生活的各种场景，用户可以通过与智能设备进行语音交互，指示其执行对应的任务。

2、相关技术中，通过智能语音交互的方式，通常只能使智能设备执行单个任务，即智能设备每次基于用户输入的语音只能识别并执行一个任务，任务执行效率低，影响用户的使用体验。

技术实现思路

1、本技术实施例提供了一种智能语音交互方法及装置，可以基于用户输入的语音识别并执行多个任务，提高了任务执行效率，也相应提高了用户体验。

2、有鉴于此，本技术第一方面提供了一种智能语音交互方法，所述方法包括：

3、接收输入的目标音频流；

4、对所述目标音频流中的有效音频进行文本转换处理，得到目标文本；所述文本转换处理在检测到所述有效音频的停顿时长超过预设时长阈值时停止；

5、通过任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的多个待执行任务；

6、调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务。

7、可选的，所述对所述目标音频流中的有效音频进行文本转换处理，得到目标文本，包括：

8、对所述目标音频流进行话音激活检测，得到所述目标音频流中的所述有效音频；所述有效音频为所述目标音频流中区分于背景噪声信号的话音信号；

9、对所述有效音频进行自动语音识别处理，得到所述目标文本。

10、可选的，所述方法还包括：

11、在对所述目标音频流中的所述有效音频进行文本转换处理的过程中，将转换得到的所述目标文本存储至目标缓存区；

12、当检测到所述目标音频流中所述有效音频的停顿时长超过所述预设时长阈值时，将所述目标缓存区中存储的所述目标文本发送给所述任务解析模型，以执行所述通过任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的多个待执行任务；并且，控制停止接收所述目标音频流。

13、可选的，所述通过任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的多个待执行任务，包括：

14、通过所述任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的所述多个待执行任务、以及所述多个待执行任务对应的执行顺序；

15、所述调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务，包括：

16、基于所述执行顺序，调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务。

17、可选的，当所述执行顺序指示至少两个待执行任务串行执行时，所述基于所述执行顺序，调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务，包括：

18、基于所述执行顺序指示的所述至少两个待执行任务的执行先后顺序，调用所述至少两个待执行任务各自对应的任务执行接口，执行所述至少两个待执行任务。

19、可选的，当所述执行顺序指示至少两个待执行任务并行执行时，所述基于所述执行顺序，调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务，包括：

20、并行调用所述至少两个待执行任务各自对应的任务执行接口，并行执行所述至少两个待执行任务。

21、可选的，所述接收输入的目标音频流，包括：

22、当智能设备处于免唤醒状态时，通过所述智能设备接收输入的所述目标音频流；所述智能设备响应于目标用户触发的免唤醒状态开启操作进入所述免唤醒状态。

23、本技术第二方面提供了一种智能语音交互装置，所述装置包括：

24、接收模块，用于接收输入的目标音频流；

25、文本转换模块，用于对所述目标音频流中的有效音频进行文本转换处理，得到目标文本；所述文本转换处理在检测到所述有效音频的停顿时长超过预设时长阈值时停止；

26、任务解析模块，用于通过任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的多个待执行任务；

27、任务执行模块，用于调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务。

28、可选的，所述文本转换模块具体用于：

29、对所述目标音频流进行话音激活检测，得到所述目标音频流中的所述有效音频；所述有效音频为所述目标音频流中区分于背景噪声信号的话音信号；

30、对所述有效音频进行自动语音识别处理，得到所述目标文本。

31、可选的，所述文本转换模块还用于：

32、在对所述目标音频流中的所述有效音频进行文本转换处理的过程中，将转换得到的所述目标文本存储至目标缓存区；

33、当检测到所述目标音频流中所述有效音频的停顿时长超过所述预设时长阈值时，将所述目标缓存区中存储的所述目标文本发送给所述任务解析模型，以执行所述通过任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的多个待执行任务；并且，控制停止接收所述目标音频流。

34、可选的，所述任务解析模块具体用于：

35、通过所述任务解析模型，基于所述目标文本执行任务解析处理，得到所述有效音频指示的所述多个待执行任务、以及所述多个待执行任务对应的执行顺序；

36、所述任务执行模块具体用于：

37、基于所述执行顺序，调用所述多个待执行任务各自对应的任务执行接口，执行所述多个待执行任务。

38、可选的，所述任务执行模块具体用于：

39、当所述执行顺序指示至少两个待执行任务串行执行时，基于所述执行顺序指示的所述至少两个待执行任务的执行先后顺序，调用所述至少两个待执行任务各自对应的任务执行接口，执行所述至少两个待执行任务。

40、可选的，所述任务执行模块具体用于：

41、当所述执行顺序指示至少两个待执行任务并行执行时，并行调用所述至少两个待执行任务各自对应的任务执行接口，并行执行所述至少两个待执行任务。

42、可选的，所述接收模块具体用于：

43、当智能设备处于免唤醒状态时，通过所述智能设备接收输入的所述目标音频流；所述智能设备响应于目标用户触发的免唤醒状态开启操作进入所述免唤醒状态。

44、从以上技术方案可以看出，本技术实施例具有以下优点：

45、本技术实施例提供了一种智能语音交互方法，该方法包括：接收输入的目标音频流；对目标音频流中的有效音频进行文本转换处理，得到目标文本，文本转换处理在检测到有效音频的停顿时长超过预设时长阈值时停止；通过任务解析模型，基于目标文本执行任务解析处理，得到有效音频指示的多个待执行任务；调用多个待执行任务各自对应的任务执行接口，执行多个待执行任务。本技术实施例提供的方法通过设置较长的预设时长阈值，允许接收用户输入的较长的有效音频，也即允许用户输入指示执行多个任务的有效音频；针对该指示执行多个任务的有效音频，可以先将其转换为对应的目标文本，然后，通过任务解析模型处理该目标文本，以确定该有效音频指示的多个待执行任务，如此，利用任务解析模型基于转换有效音频得到的目标文本，准确地解析出该有效音频指示的多个待执行任务；进而，调用这多个待执行任务各自对应的任务执行接口执行这多个待执行任务，实现基于用户输入的语音一次性执行多个任务，相比于每次基于用户输入的语音执行一个任务而言，本技术实施例提供的方法有效提高了任务执行效率，为使用智能语音交互功能的用户提供了更好的体验。