技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种提升人机对话交互体验感的方法、装置、设备及介质与流程 > 正文

一种提升人机对话交互体验感的方法、装置、设备及介质与流程

国知局
2024-06-21 11:26:01

本技术涉及人工智能语音交互，提供一种提升人机对话交互体验感的方法、装置、设备及介质。

背景技术：

1、随着语音助手设备的普及和应用场景的不断扩展，人工智能语音交互技术的重要性日益凸显。基于实时、双向地智能语音交互技术的应用，智能ai机器人能够实现更高级别的双向语音交互和对话能力，达到“边听边说”的效果，模拟人类交流时对信息处理的思维，提升用户与智能ai机器人连续对话的体验。

2、但是，智能ai机器人在模拟人类多轮对话交流时，针对其在同一多轮对话任务中存在对话任务意图不明晰、回复用户上一对话任务期间用户引入新的对话任务或中断对话等多种需求的复杂场景下，智能ai机器人无法合理的抉择如何处理对话任务，只能简单的忽略新引入的话题或直接放弃上一对话任务，在交互自然流畅度、智能度上还存在一定的短板，让用户明显感觉到是人与机器的指令交互，而不是人与人之间的交流，用户体验感较差。

技术实现思路

1、本技术实施例提供一种提升人机对话交互体验感的方法、装置、设备及存储介质，用于解决用户体验感差、语音交互效率较低的问题。

2、一方面，提供一种提升人机对话交互体验感的方法，所述方法包括：

3、建立全双工模式下异步通信的第一通信任务和第二通信任务；其中，所述第一通信任务用于后端接收前端传输的语音数据，并将其传输至语音识别模块中进行识别；所述第二通信任务用于后端接收语音识别结果，并对其进行处理得到对应答应信息后反馈至前端；

4、在通过所述第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过所述第一通信任务接收到第二语音数据的情况下，获取所述第二语音数据对应的第二识别文本；其中，所述第一语音数据和所述第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；

5、判断第一识别文本与所述第二识别文本的语义意图是否相关；其中，所述第一识别文本为对所述第一语音数据进行识别得到的结果；

6、若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

7、可选的，在判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤之后，还包括：

8、若所述第一识别文本与所述第二识别文本的语义意图相关，则根据对话处理优先级指令对所述第一语音数据和所述第二语音数据进行处理；其中，所述对话处理优先级指令是基于时间轴对后端接收到用户输入语音数据的时间进行任务排列执行的指令。

9、可选的，所述若所述第一识别文本与所述第二识别文本的语义意图相关，则根据对话处理优先级指令对所述第一语音数据和所述第二语音数据进行处理的步骤，还包括：

10、对所述第二识别文本进行文字分割，获得所述第二识别文本对应的文字队列；

11、根据所述对话处理优先级指令，将所述第二识别文本对应的文字队列整合至所述第一识别文本对应的文字队列的末尾，获得整合后的文字队列；

12、根据所述整合后的文字队列的先后顺序，通过所述第二通信任务将所述整合后的文字队列进行文字转语音操作，获得对应的应答音频队列；

13、根据所述应答音频队列的先后顺序将其发送至前端进行播放。

14、可选的，所述判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤之前，还包括：

15、判断所述第二识别文本中是否存在预设中断词；

16、若所述第二识别文本中存在所述预设中断词，则通过所述第二通信任务停止所述第一语音数据的处理；

17、若所述第二识别文本中不存在所述预设中断词，则执行判断所述第一识别文本与所述第二识别文本的语义意图是否相关的步骤。

18、可选的，所述判断第一识别文本与所述第二识别文本的语义意图是否相关的步骤，包括：

19、判断所述第二识别文本的意图槽位是否填充完整；

20、若所述第二识别文本的意图槽位填充完整，则判断所述第一识别文本和所述第二识别文本的语义意图是否相关；

21、若所述第二识别文本的意图槽位未填充完整，则通过所述第二通信任务暂停对所述第一语音识别结果的处理，并基于所述意图槽位中缺失的第一关键信息向前端发出第一询问请求；其中，所述第一询问请求是请求前端播放询问所述第一关键信息的语音；

22、响应于所述第一询问请求，获取第三语音数据；

23、根据所述第三语音数据，通过所述第二通信任务对所述第二识别文本的意图槽位进行填充，并在填充后返回所述判断所述第二识别文本的意图槽位是否填充完整的步骤，直至所述第二识别文本的意图槽位填充完整。

24、可选的，所述若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理的步骤，包括：

25、若所述第一识别文本与所述第二识别文本的语义意图不相关，且所述第一识别文本的意图槽位未填充完整，则基于所述意图槽位中缺失的第二关键信息向前端发出第二询问请求或提示信息；其中，所述第二询问请求是用于询问用户是否继续执行所述第一识别文本对应对话任务的选择意图信息；所述提示信息是用于提示用户先完成所述第一识别文本对应对话任务的信息；

26、响应于所述第二询问请求，获取用户第四语音数据对应的第四识别文本；

27、若所述第四识别文本为放弃继续执行所述第一识别文本对应对话任务，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

28、可选的，响应于所述第二询问请求，获取用户第四语音数据对应的第四识别文本之后，所述方法还包括：

29、若所述第四识别文本为继续执行所述第一识别文本对应对话任务，则继续通过所述第二通信任务对所述第一识别文本对应对话任务进行处理，同时将所述第二识别文本进行保存，待所述第一识别文本对应对话任务处理完成后再基于所述第二识别文本进行数据处理。

30、一方面，提供一种提升人机对话交互体验感的装置，所述装置包括：

31、通信任务建立单元，用于建立全双工模式下异步通信的第一通信任务和第二通信任务；其中，所述第一通信任务用于后端接收前端传输的语音数据，并将其传输至语音识别模块中进行识别；所述第二通信任务用于后端接收语音识别结果，并对其进行处理得到对应答应信息后反馈至前端；

32、识别文本获取单元，用于在通过所述第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过所述第一通信任务接收到第二语音数据的情况下，获取所述第二语音数据对应的第二识别文本；其中，所述第一语音数据和所述第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；

33、相关性判定单元，用于判断第一识别文本与所述第二识别文本的语义意图是否相关；其中，所述第一识别文本为对所述第一语音数据进行识别得到的结果；

34、语音数据处理单元，用于若所述第一识别文本与所述第二识别文本的语义意图不相关，则停止所述第一语音数据的处理，并执行所述第二语音数据的处理。

35、一方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法。

36、一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法。

37、与现有技术相比，本技术的有益效果为：

38、在本技术实施例中，在进行数据处理时，首先，可以建立全双工模式下异步通信的第一通信任务和第二通信任务；然后，可以在通过第二通信任务对第一语音数据对应的第一语音识别结果进行处理的过程中，通过第一通信任务接收到第二语音数据的情况下，来获取第二语音数据对应的第二识别文本；其中，第一语音数据和第二语音数据分别是多轮对话场景下相邻两次用户输入语音数据；接下来，可以判断第一识别文本与第二识别文本的语义意图是否相关；其中，第一识别文本为对第一语音数据进行识别得到的结果；最后，若第一识别文本与第二识别文本的语义意图不相关，则可以停止第一语音数据的处理，并执行第二语音数据的处理。因此，在本技术实施例中，由于整个数据处理过程均是在全双工的情况下进行处理的，因此，相比于现有技术的通过“半双工化”来进行通信，本技术可以异步的对语音数据进行识别与对话处理等，从而，实现对人与人之间交流时边听边说的状态进行高度模拟，并在提高语音交互效率的同时，提高了用户的体验感。此外，针对对话交互期间提出新的对话请求或中断请求的情况，由于会对两个语音数据的识别文本进行语义意图相关性判定，以确定最终的语音数据播报顺序，因此，相比于现有技术的“直接结束上一未完成对话任务”，本技术可以基于判断结果做对应处理，以模拟真实对话中的中断和引发新话题等发言，从而，减少不必要对话的冗长应答，实现智能对话流程控制，进一步提高用户体验度。