技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、服务器和存储介质与流程 > 正文

语音交互方法、服务器和存储介质与流程

国知局
2024-06-21 11:27:31

本申请涉及车载语音，特别涉及一种语音交互方法、服务器和存储介质。

背景技术：

1、相关技术中，车载语音对话系统通常利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签，并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示，根据此状态使用对话策略模块选择合适的对话动作，最后通过自然语言生成模块将对话动作转成自然语言回复。由于车载场景下车辆控制的需求具有很强的时效性，同时，车辆所用硬件自身的算力与开发人员离线训练模型所使用的硬件算力存在差异，导致车载环境下的语音交互对于时延有较高的要求，采用对话系统难以满足车载场景下的车辆控制需求。

技术实现思路

1、本申请提供了一种语音交互方法、服务器和存储介质。

2、本申请实施方式的语音交互方法，包括：

3、接收车辆转发的用户语音请求；

4、根据大语言模型对所述语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，其中，所述大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果；

5、输出所述执行结果下发至车辆完成语音交互。

6、如此，本申请实施方式的语音交互方法，精简语音交互系统的架构，利用预训练的大语言模型，可直接完成包括槽位识别、应用程序接口预测以及应用程序接口参数填充在内的任务，从而直接完成对语音请求的处理进行完成语音交互。本申请实施方式精简语音交互系统的架构，并利用预训练的大语言模型，减少了对于不同垂域的相关模型的调用，有效降低延时，提升对于用户语音请求的响应速度，精简架构也有利于后续的维护，节省成本。

7、在某些实施方式中，所述大语言模型通过以下步骤训练得到：

8、根据语音请求样本和与所述语音请求样本对应的应用程序接口参数填充的执行结果构建训练数据；

9、配置提示信息模板；

10、根据所述训练数据和所述提示信息对参考模型进行调整以得到所述大语言模型。

11、如此，通过提供训练样本，并结合配置好的提示信息模板，对参考模型进行调整，从而得到满足需求的大语言模型，调整后的大模型在后续使用过程中，结合提示信息，即可对接收到的语音请求按需求处理。

12、在某些实施方式中，所述方法还包括：

13、将预先配置的车辆领域的知识信息注入基础模型；

14、对基础模型进行训练以得到所述参考模型。

15、如此，将车辆领域的知识注入基础模型中，对基础模型进行训练，可以增强基础模型对于这些知识的认知和理解，从而减少推理过程中需要对外部知识不断进行查询的依赖，从而得到针对车辆领域具有较强理解能力的参考模型。

16、在某些实施方式中，所述根据大语言模型对所述语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，包括：

17、根据所述大语言模型和预先配置的提示信息，对所述语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果。

18、如此，经过调整得到的大语言模型，在使用过程中配合预先配置的提示信息，就能够执行相应的任务满足用户的需求，具体而言，可能完成槽位识别、应用程序接口预测以及应用程序接口参数填充，输出参数填充的执行结果。

19、在某些实施方式中，所述根据所述大语言模型和目标提示信息，对所述语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充，包括：

20、根据所述大语言模型和所述提示信息，确定槽位识别的结果、预测到的应用程序接口和所述应用程序接口的目标参数；

21、将所述槽位识别的结果填充到所述预测到的应用程序接口对应的所述目标参数以得到应用程序接口参数填充的执行结果。

22、如此，经过调整得到的大语言模型，在使用过程中配合预先配置的提示信息，能够完成槽位识别、应用程序接口的预测，并将槽位识别结果填入应用程序接口相应的目标参数中。

23、在某些实施方式中，所述输出所述执行结果下发至车辆完成语音交互，包括：

24、根据所述提示信息中预定义的格式输出所述执行结果。

25、如此，根据提示信息中预定义的格式输出执行结果，方便后续过程中对相应格式的输出内容进行解析，从而得到相关信息来生成执行指令。

26、在某些实施方式中，所述根据所述提示信息中预定义的格式输出所述执行结果，包括：

27、将所述执行结果填入输出内容的目标字段，其中，所述目标字段包括第一目标字段和第二目标字段，所述第一目标字段被配置为填入所述应用程序接口，所述第二目标字段被配置为填入所述应用程序接口参数填充的执行结果。

28、如此，预定义格式的输出内容包括有第一目标字段和第二目标字段，根据相应目标字段的配置定义，将相应的内容填入，使得在后续过程中可从相应字段对输出内容进行解析，从而得到相关信息来生成执行指令。

29、在某些实施方式中，所述输出所述执行结果下发至车辆完成语音交互，包括：

30、解析所述输出内容中所述目标字段的填充内容；

31、根据所述填充内容生成与所述语音请求相对应的执行指令并下发至所述车辆完成语音交互。

32、如此，通过对输出内容中相关目标字段的解析，得到相应的填充内容，从而可以根据填充内容生成与语音请求相对应的执行指令，执行指令下发车辆，由车辆执行完成语音交互。

33、本申请的实施方式的服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述实施方式任一项所述的语音交互方法。

34、本申请实施方式的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被一个或多个处理器执行的情况下，实现上述实施方式任一项所述的语音交互方法。

35、本申请实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述大语言模型通过以下步骤训练得到：

3.根据权利要求2所述的语音交互方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的语音交互方法，其特征在于，所述根据大语言模型对所述语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，包括：

5.根据权利要求4所述的语音交互方法，其特征在于，所述根据所述大语言模型和目标提示信息，对所述语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充，包括：

6.根据权利要求4或5所述的语音交互方法，其特征在于，所述输出所述执行结果下发至车辆完成语音交互，包括：

7.根据权利要求6所述的语音交互方法，其特征在于，所述根据所述提示信息中预定义的格式输出所述执行结果，包括：

8.根据权利要求7所述的语音交互方法，其特征在于，所述输出所述执行结果下发至车辆完成语音交互，包括：

9.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-8任一项所述的语音交互方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被一个或多个处理器执行的情况下，实现如权利要求1-8任一项所述的语音交互方法。

技术总结本申请公开了一种语音交互方法、服务器和存储介质。该语音交互方法包括：接收车辆转发的用户语音请求；根据大语言模型对语音请求进行槽位识别、应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，其中，大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果；输出执行结果下发至车辆完成语音交互。本申请实施方式精简语音交互系统的架构，并利用预训练的大语言模型，减少了对于不同垂域的相关模型的调用，有效降低延时，提升对于用户语音请求的响应速度，精简架构也有利于后续的维护，节省成本。技术研发人员：丁鹏傑,赵群,宁洪珂,樊骏锋,朱麒宇受保护的技术使用者：广州小鹏汽车科技有限公司技术研发日：技术公布日：2024/2/8