技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种服务器、显示设备及语音交互方法与流程 > 正文

一种服务器、显示设备及语音交互方法与流程

国知局
2024-06-21 11:41:24

本技术涉及语音交互，尤其涉及一种服务器、显示设备及语音交互方法。

背景技术：

1、传统的对话机器人重点关注的是“智商”，常见的表现形式为智能语音助手，语音助手与手机、音箱、电视、电脑等设备配套，后端的主要技术是任务型对话理解。另一种常见的对话机器人是聊天机器人，聊天机器人一般建立在几千万真实的对话语料库基础上，通过理解对话的语境语义，具备一定的情感计算能力，实现开放域自然的人机交互。此外还有很多客服聊天机器人，在受限领域内与客户进行基本的沟通并回复产品和服务相关的问题。

2、以上传统对话机器人的主要研究点围绕在如何正确理解用户意图，在很多领域均有较为成熟的产品落地。然而，很多时候这些对话机器人虽然已经拥有很高的智商，但是对情感的处理却没有到位，经常会产生合乎逻辑但是情感上却很冷漠的回复，影响用户体验。

3、对话机器人一般都不具备情感处理的能力，或者是对情感处理的不够精准，大部分有情感处理能力的对话机器人也仅仅是在闲聊领域内，通过情感分类模型简单判断用户情感，或者基于情感对话数据集训练回复生成模型，相对来说情感计算与对话技术的结合还比较浅层，处于初步的情感对话阶段，对用户体验的改善不够明显。

技术实现思路

1、本技术一些实施例提供了一种服务器、显示设备及语音交互方法，基于语音文本、情感类型、情感原因、回复情感和回复策略生成有针对性的回复，不仅关注对话内容的相关性，同时还注重沟通策略和情感状态，带给用户生动而有情感的对话交互体验。

2、第一方面，本技术一些实施例中提供一种服务器，被配置为：

3、接收显示设备发送用户输入的语音数据；

4、识别所述语音数据对应的语音文本；

5、基于所述语音文本确定情感类型以及情感原因；

6、根据所述语音文本和所述情感类型确定回复情感和回复策略；

7、将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本；

8、根据所述播报文本合成播报语音；

9、将所述播报语音发送至所述显示设备，以使所述显示设备播放所述播报语音。

10、在一些实施例中，所述情感类型包括一级情感和二级情感，所述二级情感为所述一级情感结合事件、心理状态或情感强烈程度的情感信息，所述服务器执行基于所述语音文本确定情感类型以及情感原因，被进一步配置为：

11、确定一级情感；

12、将所述一级情感及所述语音文本输入二级情感分类器中，得到二级情感；

13、从所述语音文本中抽取情感原因。

14、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

15、在映射表中查找与所述一级情感或所述二级情感对应的回复情感和回复策略，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系。

16、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

17、获取用户画像或系统人设，所述用户画像是基于用户历史语音对话确定用户的性格标签，所述系统人设是用户设置的性格标签；

18、获取所述用户画像或系统人设对应的映射表；

19、在所述映射表中查找与所述一级情感或所述二级情感对应的回复情感和回复策略，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系。

20、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

21、获取业务需求标识；

22、如果所述业务需求标识为预设值，则在映射表中查找与所述一级情感或所述二级情感对应的回复情感和回复策略，所述业务需求标识为预设值表征用户的业务需求已完成，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系；

23、如果所述业务需求标识不为预设值，则确定回复情感为预设情感，回复策略为预设策略，所述业务需求标识不为预设值表征用户的业务需求未完成。

24、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

25、在所述映射表中查找与所述一级情感或所述二级情感对应的待选回复情感和待选回复策略，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系；

26、确定所述待选回复情感中与所述上次语音文本对应回复情感最相近的回复情感为本次语音文本的回复情感；

27、确定本次语音文本的回复情感对应的回复策略为本次语音文本的回复策略。

28、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

29、将所述语音文本及一级情感输入第一线性层分类器，得到回复情感；

30、将所述语音文本及二级情感输入第二线性层分类器，得到回复策略。

31、在一些实施例中，所述服务器执行将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本，被进一步配置为：

32、将所述语音文本、所述二级情感、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本。

33、第二方面，本技术一些实施例中提供一种显示设备，包括：

34、显示器，被配置为显示用户界面；

35、通信器，被配置为与服务器进行数据通信；

36、控制器，被配置为：

37、接收用户输入的语音数据；

38、将所述语音数据通过所述通信器发送至服务器；

39、接收所述服务器基于所述语音数据下发的数字人图像数据及播报语音；

40、播放所述播报语音并基于所述数字人图像数据显示数字人图像。

41、第三方面，本技术一些实施例中提供一种语音交互方法，包括：

42、接收显示设备发送用户输入的语音数据；

43、识别所述语音数据对应的语音文本；

44、基于所述语音文本确定情感类型以及情感原因；

45、根据所述语音文本和所述情感类型确定回复情感和回复策略；

46、将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本；

47、根据所述播报文本合成播报语音；

48、将所述播报语音发送至所述显示设备，以使所述显示设备播放所述播报语音。

49、本技术的一些实施例提供一种服务器、显示设备及语音交互方法。接收显示设备发送用户输入的语音数据；识别所述语音数据对应的语音文本；基于所述语音文本确定情感类型以及情感原因；根据所述语音文本和所述情感类型确定回复情感和回复策略；将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本；根据所述播报文本合成播报语音；将所述播报语音发送至所述显示设备，以使所述显示设备播报所述播报语音。本技术实施例基于语音文本、情感类型、情感原因、回复情感和回复策略生成有针对性的回复，不仅关注对话内容的相关性，同时还注重沟通策略和情感状态，带给用户生动而有情感的对话交互体验。