技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、服务器及计算机可读存储介质与流程 > 正文

语音交互方法、服务器及计算机可读存储介质与流程

国知局
2024-06-21 10:38:49

本技术涉及语音交互，特别涉及一种语音交互方法、服务器及计算机可读存储介质。

背景技术：

1、目前，车载语音技术可以支持用户通过语音在车辆座舱内进行交互，例如控制车辆零部件或与车载系统用户界面中的组件进行交互。然而，车载系统的用户界面中往往会存在多个控件或子用户界面，并且用户语音请求可能同时命中多个相同表达的控件或子用户界面。此种情况下，往往需要进行第二轮的澄清询问，请求用户从多个候选项中，进行二次选择，确认最终的目标，从而影响语音交互的便捷性。

技术实现思路

1、本技术提供了一种语音交互方法、服务器及计算机可读存储介质。

2、本技术实施方式提供一种语音交互方法，包括：

3、接收车辆转发的与车载系统用户界面进行交互的当前语音请求；

4、根据大语言模型，确定与所述当前语音请求相对应的目标意图信息和目标交互信息，其中，所述大语言模型预先训练完成，且能够根据语音请求确定与所述语音请求相对应的意图信息和交互信息，所述交互信息包括交互对象及所述交互对象的位置信息；

5、根据所述目标意图信息和所述目标交互信息，生成与所述当前语音请求对应的车辆控制指令；

6、将所述车辆控制指令转发至所述车辆以完成所述语音交互。

7、本技术实施方式提供的语音交互方法中，服务器接收到车辆转发的当前语音请求，根据大语言模型，确定与当前语音请求相对应的目标意图信息和目标交互信息。服务器根据目标意图信息和目标交互信息，生成与当前语音请求对应的车辆控制指令，及将车辆控制指令转发至车辆，由此完成与用户的语音交互。

8、如此，在本技术实施方式中，用户通过语音与车载系统用户界面进行交互的过程中，对于接收到的当前语音请求，服务器可调用预先训练的大语言模型，以通过大语言模型确定当前语音请求的目标意图信息，及使大语言模型基于预先训练过程中学习到的知识，确定车载系统用户界面中交互对象中，与当前语音请求相对应的目标交互对象及目标交互对象的目标位置信息，从而得到目标交互信息，进而生成车辆控制指令。本技术可根据语音请求和大语言模型，定位车载系统用户界面中目标操作对象，在一定程度上避免用户需进行多轮澄清的情况出现，语音指令的流畅性和便捷性得以提升。

9、在本技术某些实施方式中，所述大语言模型的训练步骤包括：

10、根据预设的界面知识信息，对预设的基座模型进行训练以得到参考模型，其中，所述界面知识信息包括所述车载系统用户界面中交互对象的位置信息；

11、根据预设的语音请求样本及提示信息样本，对所述参考模型进行训练，以使所述参考模型能够根据语音请求样本确定与所述语音请求样本相对应的意图信息和交互信息，确定所述大语言模型。

12、如此，本技术实施方式基于界面知识信息、语音请求样本及提示信息样本，使得基座模型能学习到车载系统用户界面中交互对象的位置信息，及学习到根据语音请求样本确定与语音请求样本相对应的意图信息和交互信息，从而得到能用于语音交互的大语言模型，在一定程度上保障大语言模型的可靠训练。

13、在本技术某些实施方式中，所述大语言模型的训练步骤包括：

14、根据预先确定的思维链提示模板信息，配置所述提示信息样本。

15、如此，本技术实施方式可根据思维链提示模板信息配置提示信息样本，进而在大语言模型的训练过程中，大语言模型能基于预先设定的推理方式或思维链，逐步地从语音请求中推理出与语音请求样本相对应的意图信息和交互信息，意图信息和交互信息的预测精度得以保障。

16、在本技术某些实施方式中，所述根据大语言模型，确定与所述当前语音请求相对应的目标意图信息和目标交互信息，包括：

17、配置目标提示信息；

18、根据所述目标提示信息、所述当前语音请求及所述大语言模型，确定所述目标意图信息和所述目标交互信息。

19、如此，本技术实施方式使得大语言模块可配置相应的目标提示信息，进而根据目标提示信息，推理或确定出与当前语音请求相对应的目标意图信息和所述目标交互信息，从而在一定程度上使得目标意图信息和所述目标交互信息的准确率得以保障。

20、在本技术某些实施方式中，所述配置目标提示信息，包括：

21、根据预先确定的思维链提示模板信息，配置所述目标提示信息。

22、如此，本技术实施方式使得大语言模型可根据由思维链提示模板信息配置的目标提示信息，对当前语音请求对应的目标意图信息和目标交互信息进行逐步的推理和求解，使得目标意图信息和目标交互信息的准确率和可靠性在一定程度上得到保障。

23、在本技术某些实施方式中，所述根据所述目标提示信息、所述当前语音请求及所述大语言模型，确定所述目标意图信息和所述目标交互信息，包括：

24、在根据所述目标提示信息、所述当前语音请求及所述大语言模型，确定多个候选交互对象的情况下，通过所述目标提示信息和所述大语言模型生成与所述候选交互对象相对应的语音询问指令，并将所述语音询问指令转发至所述车辆。

25、如此，本技术实施方式使得服务器可根据大语言模型可根据目标提示信息，在推理出与当前语音请求相对应的候选交互对象为多个的情况下，通过大语言模型生成与所述候选交互对象相对应的语音询问指令，并将所述语音询问指令转发至所述车辆，进而，车辆后续可根据语音询问指令询问用户，在一定程度上避免服务器根据多个候选交互对象确定车辆控制指令后，车辆根据车辆控制指令对多个候选交互对象均进行操控的情况出现，在一定程度上保障了语音交互的合理性。

26、在本技术某些实施方式中，所述根据所述目标提示信息、所述当前语音请求及所述大语言模型，确定所述目标意图信息和所述目标交互信息，包括：

27、响应于接收到的对所述语音询问指令的回复请求，根据所述回复请求和所述大语言模型，在多个所述候选交互对象中确定目标交互对象。

28、如此，本技术实施方式使得服务器可使得大语言模型能通过车辆转发的对于语音询问指令的回复请求，推理出与当前语音请求相对应的目标交互对象，及目标交互对象的目标位置信息，从而得到目标交互信息及目标交互信息，服务器可基于目标交互对象完成车辆控制指令的生成与转发，车辆得以正确地响应当前语音请求，语音交互的合理性在一定程度上得到保障。

29、在本技术某些实施方式中，所述根据所述目标提示信息、所述当前语音请求及所述大语言模型，确定所述目标意图信息和所述目标交互信息，包括：

30、在根据所述目标提示信息、所述当前语音请求及所述大语言模型，确定与所述当前语音请求相对应的多个可选交互对象的情况下，根据所述大语言模型和所述目标提示信息，对所述多个可选交互对象进行归一化处理以确定目标交互对象。

31、如此，本技术实施方式使得车辆可在确定出与当前语音请求对应多个可选交互对象的情况下，通过归一化操作确定多个可选交互对象对应的目标交互对象，使得目标交互对象及目标交互信息得以可靠和准确地确定，服务器根据目标交互信息确定的车辆控制指令的可信度在一定程度上得到保障。

32、本技术实施方式提供一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的语音交互方法。

33、本技术实施方式提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述的语音交互方法。

34、本技术实施方式提供的服务器和计算机可读存储介质，用户通过语音与车载系统用户界面进行交互的过程中，对于接收到的当前语音请求，服务器可调用预先训练的大语言模型，以通过大语言模型确定当前语音请求的目标意图信息，及使大语言模型基于预先训练过程中学习到的知识，确定车载系统用户界面中交互对象中，与当前语音请求相对应的目标交互对象及目标交互对象的目标位置信息，从而得到目标交互信息，进而生成车辆控制指令。本技术可根据语音请求和大语言模型，定位车载系统用户界面中目标操作对象，在一定程度上避免用户需进行多轮澄清的情况出现，语音指令的流畅性和便捷性得以提升。

35、本技术的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实施方式的实践了解到。