技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音交互方法、服务器及计算机可读存储介质与流程 > 正文

语音交互方法、服务器及计算机可读存储介质与流程

国知局
2024-06-21 11:52:03

本技术涉及语音交互，特别涉及一种语音交互方法、服务器及计算机可读存储介质。

背景技术：

1、相关技术中，车载语音对话系统通常利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签，并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示，根据此状态使用对话策略模块选择合适的对话动作，最后通过自然语言生成模块将对话动作转成自然语言回复。然而，开发人员在训练模型期间所使用的训练数据可能为经典或当时流行的语料数据，但在模型落地后这些语料数据可能已“过期”，导致模型可能因“过期”信息给出无效的答案。

技术实现思路

1、本技术提供了一种语音交互方法、服务器及计算机可读存储介质。

2、本技术实施方式提供一种语音交互方法，包括：

3、接收车辆转发的当前语音请求；

4、根据所述当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果；

5、基于大语言模型，根据预先配置的提示信息模板和所述第一检索结果，对所述当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，所述大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果；

6、输出所述执行结果下发至车辆完成语音交互。

7、本技术实施方式提供的语音交互方法中，服务器可接收到车辆转发的当前语音请求，并根据当前语音请求对预先配置的知识数据库进行检索，以得到与当前语音请求存在相关性的第一检索结果，再基于预先训练完成且能够根据语音请求生成应用程序接口参数填充的执行结果的大语言模型，根据预先配置的提示信息模板和第一检索结果对当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，及输出执行结果下发至车辆，由此完成语音交互。

8、如此，在本技术实施方式中，服务器可在模型推理过程中根据当前语音请求检索知识数据库以得到第一检索结果，以使得模型可基于第一检索结果和提示信息模板的提示，完成当前语音请求的推理工作，进而模型推理结果的时效性可与知识数据库中的信息相关，从而能在一定程度上避免模型的训练数据过期而导致模型给出无效或过期的答案的情况出现，保障了模型的推理精度。

9、在本技术某些实施方式中，所述知识数据库包括索引和所述索引对应的数据块，所述根据所述当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果，包括：

10、根据所述当前语音请求，对所述知识数据库中的所述索引进行检索，得到目标索引；

11、根据所述知识数据库中与目标索引相对应的数据块，确定所述第一检索结果。

12、的服务器可将目标索引所指代或表征的数据块，作为当前语音请求的检索结果。

13、如此，在本技术实施方式中，服务器可利用当前语音请求检索知识数据库中数据块对应的索引，以避免直接通过当前语音请求检索数据块的情况出现，使得检索知识数据库所需利用的计算资源得以降低，检索操作的执行效率得以保障。

14、在本技术某些实施方式中，所述方法还包括：

15、对所述数据块进行嵌入化编码处理，得到与所述数据块相对应的所述索引。

16、如此，在本技术实施方式中，数据块的索引可通过对数据块进行嵌入化编码以得到，使得数据块及数据块对应的索引间的指向关系清晰且明确。

17、在本技术某些实施方式中，所述根据所述当前语音请求，对所述知识数据库中的所述索引进行检索，得到目标索引，包括：

18、对所述当前语音请求进行所述嵌入化编码处理，得到编码结果；

19、根据所述编码结果对所述知识数据库中的所述索引进行检索，得到目标索引。

20、如此，在本技术实施方式中，服务器可通过对当前语音请求进行嵌入化编码处理，以得到能与索引能处于同一空间或同一纬度的编码结果，使得目标索引能可靠地通过检索编码结果以得到。

21、在本技术某些实施方式中，所述知识数据库包括多个所述索引及每个所述索引对应的数据块，所述根据所述编码结果对所述知识数据库中的所述索引进行检索，得到目标索引，包括：

22、根据所述编码结果与每个所述索引的相似度，从多个所述索引中确定所述目标索引。

23、如此，在本技术实施方式中，服务器可在确定出当前语音请求的编码结果的情况下，基于该编码结果与各个数据块的索引的相似度，从各个数据块的索引中确定出目标索引。

24、在本技术某些实施方式中，所述知识数据库包括多个所述索引及每个所述索引对应的数据块，所述方法还包括：

25、对预先确定的知识数据进行拆分处理，得到多个所述数据块。

26、如此，在本技术实施方式中，服务器可在获取到知识数据的情况下，对完整的知识数据进行拆分处理以得到多个数据块，从而避免将完整的知识数据输入至大语言模型以提示大语言模型进行推理工作的情况出现。

27、在本技术某些实施方式中，所述大语言模型的训练步骤包括：

28、获取语音请求样本和所述语音请求样本对应的样本标签；

29、根据所述语音请求样本，对所述知识数据库进行检索，得到第二检索结果；

30、根据所述语音请求样本、所述样本标签、所述第二检索结果及预先配置的提示信息模板，训练参考模型以得到所述大语言模型。

31、如此，在本技术实施方式中，服务器可基于语音请求样本、语音请求样本对应的样本标签、语音请求样本对应的第二检索结果以及预先配置的提示信息模板，对参考模型进行训练，以得到能对需求的下游任务进行可靠处理的大语言模型。

32、在本技术某些实施方式中，所述方法还包括：

33、将预先配置的车辆领域的知识信息注入基础模型；

34、对基础模型进行训练以得到所述参考模型。

35、如此，将车辆领域的知识注入基础模型，并对基础模型进行训练，使得模型对于车辆领域的知识具备一定的理解，进而能提高模型对于车辆领域的下游任务的处理能力。

36、本技术实施方式提供一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的语音交互方法。

37、本技术实施方式提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述的语音交互方法。

38、本技术实施方式提供的服务器和计算机存储介质，可在模型推理过程中根据当前语音请求检索知识数据库以得到第一检索结果，以使得模型可基于第一检索结果和提示信息模板的提示，完成当前语音请求的推理工作，进而模型推理结果的时效性可与知识数据库中的信息相关，从而能在一定程度上避免模型的训练数据过期而导致模型给出无效或过期的答案的情况出现，保障了模型的推理精度。

39、本技术的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实施方式的实践了解到。