技术新讯 > 乐器声学设备的制造及制作,分析技术 > 人机交互方法、装置、电子设备及存储介质与流程 > 正文

人机交互方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 10:39:24

本技术涉及人工智能，尤其涉及一种人机交互方法、装置、电子设备及存储介质。

背景技术：

1、人机交互系统是伴着计算机的诞生发展起来的，是研究人与计算机之间通过相互理解的交流与通信，在最大程度上为人们完成信息管理，服务和处理等功能，使计算机真正成为人们工作学习的和谐助手的一门技术科学。在现代和未来的社会里，只要有人利用通信、计算机等信息处理技术，为社会、经济、环境和资源进行活动时，人机交互都是永恒的主题。

2、当前的人机交互系统的交互流程包括：用户说一段话后，人机交互系统将语音识别成文字，根据用户所说的文字，生成回答用户对应的文本内容，将生成的文本内容合成为语音，播放出来给用户听，从而完成人机交互流程。但是当前的人机交互系统中机器人均采用一种声音进行人机交互，降低了用户体验。

技术实现思路

1、有鉴于此，本技术提供了一种人机交互方法、装置、电子设备及存储介质，以识别说话人的情绪并加以处理，实现有感情的人机交互。

2、第一方面，本技术提供了一种人机交互方法，包括：

3、按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息；

4、匹配所述文本信息所对应的目标回复文本信息，及所述情绪信息对应的目标音色；

5、将所述目标回复文本信息合成为交互语音，并使用所述目标音色播报所述交互语音，以完成人机语音交互。

6、可选地，所述预设识别规则包括第一识别规则及第二识别规则；

7、所述按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息包括：

8、按照所述第一识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的文本信息，所述第一识别规则用于识别语音信息中的文本信息；

9、按照所述第二识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的情绪信息，所述第二识别规则用于识别语音信息中的情绪信息。

10、可选地，所述匹配所述文本信息所对应的目标回复文本信息，及所述情绪信息对应的目标音色包括：

11、在所述第一识别规则识别出所述文本信息后，根据第一映射表确定所述文本信息所对应的所述目标回复文本信息；所述第一识别规则用于将语音识别为文字，所述第一映射表用于记录文本信息与目标回复文本信息之间的映射关系；

12、在所述第二识别规则识别出所述情绪信息后，根据第二映射表确定所述情绪信息对应的所述目标音色，所述第二识别规则用于通过语音中的声学特征识别情绪，所述声学特征包括语速、节奏、音量、音调中的至少一种，所述第二映射表用于记录情绪信息与目标音色之间的映射关系。

13、可选地，在按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息之前，所述方法还包括：

14、配置所述第一识别规则调用第一预设语音识别算法进行文本信息识别；

15、根据识别到的文本信息生成对应的目标回复文本信息，并将文本信息与目标回复文本信息之间的映射关系记录于所述第一映射表；

16、配置所述第二识别规则调用第一预设情绪识别算法进行情绪信息识别，所述第一预设情绪识别算法通过解析语音信息的语速、节奏、音量、音调中的至少一种声学特征，进行情绪分类；

17、根据识别到的情绪信息生成对应的目标音色，并将所述情绪信息与目标音色之间的映射关系记录于所述第二映射表。

18、可选地，所述按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息包括：

19、按照所述预设识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的情绪信息；所述预设识别规则中不同的情绪信息对应不同的文本信息；

20、继续基于所述预设识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的文本信息。

21、可选地，所述匹配所述文本信息所对应的目标回复文本信息，及所述情绪信息对应的目标音色包括：

22、在按照所述预设识别规则得到所述情绪信息后，根据第三映射表确定所述情绪信息对应的目标音色，所述第三映射表用于记录情绪信息与目标音色之间的映射关系，

23、将所述情绪信息输入情绪识别引擎，生成适配所述情绪信息及所述文本信息的目标回复文本信息，其中，情绪识别引擎通过调用所述第三映射表生成所述目标回复文本信息，所述第三映射关系表中还记录有情绪信息、文本信息与目标回复文本信息之间的映射关系。

24、可选地，在按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息之前，所述方法还包括：

25、配置所述预设识别规则调用第二预设情绪识别算法进行情绪信息识别；所述第二预设情绪识别算法通过解析语音信息的语速、节奏、音量、音调中的至少一种声学特征，进行情绪分类；

26、配置所述预设识别规则调用第二预设语音识别算法进行文本信息识别，所述第二预设情绪识别算法的执行优先级高于所述第二预设语音识别算法的执行优先级；

27、根据识别到的情绪信息生成对应的目标音色，并将所述情绪信息与目标音色之间的映射关系记录于所述第三映射表；

28、根据识别到的情绪信息及文本信息生成与目标回复文本信息之间的映射关系，并记录于所述第三映射表中。

29、第二方面，本技术提供了一种人机交互装置，包括：

30、处理单元，用于按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息；

31、匹配单元，用于匹配所述文本信息所对应的目标回复文本信息，及所述情绪信息对应的目标音色；

32、交互单元，用于将所述目标回复文本信息合成为交互语音，并使用所述目标音色播报所述交互语音，以完成人机语音交互。

33、可选地，所述预设识别规则包括第一识别规则及第二识别规则；

34、所述处理单元，还用于：

35、按照所述第一识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的文本信息，所述第一识别规则用于识别语音信息中的文本信息；

36、按照所述第二识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的情绪信息，所述第二识别规则用于识别语音信息中的情绪信息。

37、可选地，所述匹配单元，还用于：

38、在所述第一识别规则识别出所述文本信息后，根据第一映射表确定所述文本信息所对应的所述目标回复文本信息；所述第一识别规则用于将语音识别为文字，所述第一映射表用于记录文本信息与目标回复文本信息之间的映射关系；

39、在所述第二识别规则识别出所述情绪信息后，根据第二映射表确定所述情绪信息对应的所述目标音色，所述第二识别规则用于通过语音中的声学特征识别情绪，所述声学特征包括语速、节奏、音量、音调中的至少一种，所述第二映射表用于记录情绪信息与目标音色之间的映射关系。

40、可选地，所述装置还包括：

41、第一配置单元，用于在按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息之前，配置所述第一识别规则调用第一预设语音识别算法进行文本信息识别；

42、第一生成单元，用于根据识别到的文本信息生成对应的目标回复文本信息；

43、记录单元，用于将文本信息与目标回复文本信息之间的映射关系记录于所述第一映射表；

44、第二配置单元，用于配置所述第二识别规则调用第一预设情绪识别算法进行情绪信息识别，所述第一预设情绪识别算法通过解析语音信息的语速、节奏、音量、音调中的至少一种声学特征，进行情绪分类；

45、第二生成单元，用于根据识别到的情绪信息生成对应的目标音色；

46、第二记录单元，用于将所述情绪信息与目标音色之间的映射关系记录于所述第二映射表。

47、可选地，所述处理单元，还用于：

48、按照所述预设识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的情绪信息；所述预设识别规则中不同的情绪信息对应不同的文本信息；

49、继续基于所述预设识别规则对所述待处理语音信息进行识别，识别出所述待处理语音信息对应的文本信息。

50、可选地，所述匹配单元还用于：

51、在按照所述预设识别规则得到所述情绪信息后，根据第三映射表确定所述情绪信息对应的目标音色，所述第三映射表用于记录情绪信息与目标音色之间的映射关系，

52、将所述情绪信息输入情绪识别引擎，生成适配所述情绪信息及所述文本信息的目标回复文本信息，其中，情绪识别引擎通过调用所述第三映射表生成所述目标回复文本信息，所述第三映射关系表中还记录有情绪信息、文本信息与目标回复文本信息之间的映射关系。

53、可选地，所述装置还包括：

54、第三配置单元，用于在按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息之前，配置所述预设识别规则调用第二预设情绪识别算法进行情绪信息识别；所述第二预设情绪识别算法通过解析语音信息的语速、节奏、音量、音调中的至少一种声学特征，进行情绪分类；

55、第四配置单元，用于配置所述预设识别规则调用第二预设语音识别算法进行文本信息识别，所述第二预设情绪识别算法的执行优先级高于所述第二预设语音识别算法的执行优先级；

56、第三生成单元，用于根据识别到的情绪信息生成对应的目标音色；

57、第三记录单元，用于将所述情绪信息与目标音色之间的映射关系记录于所述第三映射表；

58、第四生成单元，用于根据识别到的情绪信息及文本信息生成与目标回复文本信息之间的映射关系，并记录于所述第三映射表中。

59、第三方面，本技术提供了一种电子设备，包括：

60、至少一个处理器；

61、以及与所述至少一个处理器通信连接的存储器；其中，

62、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面任一项所述的方法。

63、第四方面，本技术提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据上述第一方面任一项所述的方法。

64、第五方面，本技术提供了一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述第一方面任一项所述的方法。

65、相比现有技术，本技术具有以下有益效果：

66、本技术提供了一种人机交互方法、装置、电子设备及存储介质，首先按照预设识别规则对待处理语音信息进行识别，根据识别结果得到所述待处理语音信息对应的情绪信息及文本信息，匹配所述文本信息所对应的目标回复文本信息，及所述情绪信息对应的目标音色，将所述目标回复文本信息合成为交互语音，并使用所述目标音色播报所述交互语音，以完成人机语音交互。和现有技术相比，本技术可识别说话人发出待处理语音的情绪并加以处理，实现了有感情的人机交互。

67、应当理解，本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征，也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。