技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种服务器、终端设备及语音交互方法与流程 > 正文

一种服务器、终端设备及语音交互方法与流程

国知局
2024-06-21 11:41:54

本申请涉及语音交互，尤其涉及一种服务器、终端设备及语音交互方法。

背景技术：

1、随着自然语言处理和人工智能领域的发展，人机语音交互技术越来越普及。人工智能通过对海量数据的学习和处理，能够更准确的预测用户的习惯和喜好，变得更加智能化，告别传统依赖基础按键方式的控制，用户的操作方式变得更加简洁。

2、现有的人机交互主要采用意图识别和槽位填充技术，首先通过深度学习技术识别用户查询(query)的意图和关键槽位信息，然后进行意图匹配，根据意图匹配结果和槽位信息调取相应的业务服务接口，最后利用相关业务数据对用户进行回复。然而，受限于意图识别和槽位抽取的准确率以及用户多意图的query，会出现业务误入和漏入的情况。因此，需要通过预先定制多种多样的规则匹配条件来满足用户真实需求，这样大大增加人机交互系统的维护成本和复杂度。

技术实现思路

1、本申请一些实施例提供了一种服务器、终端设备及语音交互方法，在获取用户的输入文本后，调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。

2、第一方面，本申请一些实施例中提供一种服务器，被配置为：

3、接收终端设备发送的用户输入的语音数据；

4、识别所述语音数据，以获取输入文本；

5、将输入文本填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本进行解析及回复；

6、将所述输入指令输入语言模型中，得到输出数据，所述输出数据包括回复文本及至少一个追问推荐文本；

7、基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音；

8、将所述回复语音及所述追问推荐语音发送至所述终端设备，以使所述终端设备播放所述回复语音及所述追问推荐语音。

9、在一些实施例中，所述服务器，被配置为：

10、将所述回复文本及所述追问推荐文本发送至所述终端设备，以使所述终端设备显示所述回复文本及所述追问推荐文本。

11、在一些实施例中，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，在将所述输入指令输入语言模型中，得到输出数据之后，所述服务器，被配置为：

12、如果所述外部插件依赖结果不为空，将所述意图识别结果和所述关键词发送至所述外部插件依赖结果对应的插件；

13、接收所述插件基于所述意图识别结果和所述关键词回复的外部信息；

14、基于所述外部信息生成外部信息语音；

15、将所述外部信息语音发送至所述终端设备，以使所述终端设备播放所述外部信息语音。

16、在一些实施例中，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，所述服务器执行基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音，被进一步配置为：

17、如果所述外部插件依赖结果不为空，将所述意图识别结果和所述关键词发送至所述外部插件依赖结果对应的插件；

18、接收所述插件基于所述意图识别结果和所述关键词回复的外部信息；

19、基于所述外部信息及所述追问推荐文本生成回复语音及追问推荐语音。

20、在一些实施例中，所述提示模板包括指示内容和第一槽位，所述指示内容用于指示对槽位的内容进行解析及回复，所述第一槽位用于填充所述输入文本。

21、在一些实施例中，所述提示模板还包括第二槽位，所述第二槽位用于填充历史对话文本，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

22、获取历史对话文本；

23、将输入文本及历史对话文本填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本和所述历史对话文本进行解析及回复。

24、在一些实施例中，所述提示模板还包括第三槽位，所述第三槽位用于填充插件发送的外部信息，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

25、获取插件发送的外部信息；

26、将输入文本、历史对话文本及插件发送的外部信息填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本、所述历史对话文本和所述外部信息进行解析及回复。

27、第二方面，本申请一些实施例中提供一种终端设备，包括：

28、声音采集器，被配置为采集用户输入的语音数据；

29、通信器，被配置为与服务器进行数据通信；

30、音频输出接口，被配置为播放语音；

31、控制器，被配置为：

32、获取用户输入的语音数据；

33、将所述语音数据发送至服务器；

34、接收所述服务器基于所述语音数据生成的回复语音及追问推荐语音；

35、控制所述音频输出接口播放所述回复语音及所述追问推荐语音。

36、第三方面，本申请一些实施例中提供一种语音交互方法，应用于服务器，包括：

37、接收终端设备发送的用户输入的语音数据；

38、识别所述语音数据，以获取输入文本；

39、将输入文本填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本进行解析及回复；

40、将所述输入指令输入语言模型中，得到输出数据，所述输出数据包括回复文本及至少一个追问推荐文本；

41、基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音；

42、将所述回复语音及所述追问推荐语音发送至所述终端设备，以使所述终端设备播放所述回复语音及所述追问推荐语音。

43、第四方面，本申请一些实施例中提供一种语音交互方法，应用于终端设备，包括：

44、获取声音采集器采集的用户输入的语音数据；

45、将所述语音数据发送至服务器；

46、接收所述服务器基于所述语音数据生成的回复语音及追问推荐语音；

47、控制音频输出接口播放所述回复语音及所述追问推荐语音。

48、本申请的一些实施例提供一种服务器、终端设备及语音交互方法。终端设备将采集到用户输入的语音数据发送至服务器。服务器识别语音数据，得到输入文本，将输入文本填入提示模板，得到输入指令。其中，提示模板用于指示对输入文本进行解析及回复。将输入指令输入至语言模型中，得到回复文本及至少一个追问推荐文本。根据回复文本合成回复语音，以及，根据追问推荐文本合成追问推荐语音，将回复语音和追问推荐语音发送至终端设备，并由终端设备播放回复语音和追问推荐语音。本申请实施例在获取用户的输入文本后，调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。

技术特征：

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，被配置为：

3.根据权利要求1所述的服务器，其特征在于，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，在将所述输入指令输入语言模型中，得到输出数据之后，所述服务器，被配置为：

4.根据权利要求1所述的服务器，其特征在于，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，所述服务器执行基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音，被进一步配置为：

5.根据权利要求1所述的服务器，其特征在于，所述提示模板包括指示内容和第一槽位，所述指示内容用于指示对槽位的内容进行解析及回复，所述第一槽位用于填充所述输入文本。

6.根据权利要求5所述的服务器，其特征在于，所述提示模板还包括第二槽位，所述第二槽位用于填充历史对话文本，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

7.根据权利要求6所述的服务器，其特征在于，所述提示模板还包括第三槽位，所述第三槽位用于填充插件发送的外部信息，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

8.一种终端设备，其特征在于，包括：

9.一种语音交互方法，应用于服务器，其特征在于，包括：

10.一种语音交互方法，应用于终端设备，其特征在于，包括：

技术总结本申请一些实施例示出一种服务器、终端设备及语音交互方法，所述方法包括：接收终端设备发送的用户输入的语音数据；识别语音数据，以获取输入文本；将输入文本填入提示模板，以生成输入指令；将输入指令输入语言模型中，得到输出数据，输出数据包括回复文本及至少一个追问推荐文本；基于回复文本及追问推荐文本生成回复语音及追问推荐语音；将回复语音及追问推荐语音发送至终端设备，以使终端设备播放回复语音及追问推荐语音。本申请实施例调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。技术研发人员：李家欢,李俊彦受保护的技术使用者：海信电子科技（武汉）有限公司技术研发日：技术公布日：2024/4/7