语音交互方法、服务器及可读存储介质与流程
- 国知局
- 2024-06-21 11:44:26
本技术涉及语音交互,特别涉及一种语音交互方法、服务器及可读存储介质。
背景技术:
1、相关技术中,车载语音对话系统通常利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签,并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示,根据此状态使用对话策略模块选择合适的对话动作,最后通过自然语言生成模块将对话动作转成自然语言回复。在实际交互场景中,由于前期训练的不足,相关技术中的识别结果可能发生错误,无法提取到期望得到的槽位结果,难以满足用户在车载场景下的语音交互需求。
技术实现思路
1、本技术提供一种语音交互方法、服务器及可读存储介质。
2、本技术实施方式提供一种语音交互方法,包括:
3、接收车辆转发的当前语音请求;
4、根据所述当前语音请求和目标提示信息,确定目标输入信息,其中,所述目标输入信息包括多个语义单元;
5、基于大语言模型,根据所述目标输入信息和所述目标输入信息中第一语义单元相对于第二语义单元的相对距离信息,确定所述当前语音请求对应的槽位识别结果和应用程序接口预测结果,其中,所述大语言模型预先训练完成,且能够识别语音请求对应的槽位,及能够预测语音请求对应的应用程序接口;
6、根据所述槽位识别结果和所述应用程序接口预测结果,输出执行结果下发至车辆完成语音交互。
7、本技术实施方式提供的语音交互方法中,服务器可接收车辆转发的当前语音请求,根据当前语音请求和目标提示信息,确定目标输入信息,基于预先训练完成,且能够识别语音请求对应的槽位,及能够预测语音请求对应的应用程序接口的大语言模型,根据目标输入信息和目标输入信息中第一语义单元相对于第二语义单元的相对距离信息,确定当前语音请求对应的槽位识别结果和应用程序接口预测结果,根据当前语音请求对应的槽位识别结果和应用程序接口预测结果,输出执行结果下发至车辆完成语音交互。
8、如此,在本技术实施方式中,服务器可通过大语言模型完成槽位识别、应用程序接口预测等任务,从而直接完成对语音请求的处理进行完成语音交互。本技术实施方式基于预先训练完成的大语言模型,减少了对于不同垂域的相关模型的调用,有效降低延时,提升对于用户语音请求的响应速度。本技术实施方式使得大语言模型可通过目标输入信息中的目标提示信息,及目标输入信息中第一语义单元相对于第二语义单元的相对距离信息,输出当前语音请求对应的槽位识别结果和应用程序接口预测结果,使得槽位识别结果的可靠程度和应用程序接口预测结果的可靠程度均能得到保障。
9、在本技术某些实施方式中,所述方法还包括:
10、基于预先配置的多个应用程序接口及每个所述应用程序接口对应的说明信息,确定所述目标提示信息。
11、如此,本技术实施方式的服务器使得大语言可基于目标输入信息中应用程序接口的说明信息,完成当前语音请求的应用程序接口预测,因而应用程序接口预测结果的可信程度得以保障,且能一定程度上避免大语言模型面对未知或少见的当前语音请求时创造新的应用程序接口以作为预测结果的情况出现。
12、在本技术某些实施方式中,所述基于预先配置的多个应用程序接口及每个所述应用程序接口对应的说明信息,确定所述目标提示信息,包括:
13、从所述多个应用程序接口中选取目标应用程序接口;
14、根据所述目标应用程序接口对应的接口说明信息,确定所述目标提示信息。
15、如此,本技术实施方式的服务器可确定全部应用程序接口中的目标应用程序接口,及根据目标应用程序接口对应的说明信息完成目标提示信息与目标输入信息的确定,从而能在一定程度上避免目标提示信息和目标输入信息过长的情况,大语言模型基于目标提示信息和目标输入信息进行的槽位识别和应用程序接口预测得以稳定进行。
16、在本技术某些实施方式中,所述基于大语言模型,根据所述目标输入信息和所述目标输入信息中第一语义单元相对于第二语义单元的相对距离信息,确定所述当前语音请求对应的槽位识别结果和应用程序接口预测结果,包括:
17、基于所述大语言模型,根据所述相对距离信息及所述语义单元,确定所述目标输入信息对应的编码结果;
18、根据所述编码结果确定所述槽位识别结果和所述应用程序接口预测结果。
19、如此,本技术实施方式的服务器可基于大语言模型,利用目标提示信息中第一语义单元相对于第二语义单元的相对距离信息,对目标提示信息进行编码以得到编码结果,进而,通过编码结果所指示的相对距离信息进行槽位识别和应用程序接口预测时,使得槽位识别精度和应用程序接口预测精度均可在一定程度上得到保障。
20、在本技术某些实施方式中,所述基于所述大语言模型,根据所述相对距离信息及所述语义单元,确定所述目标输入信息对应的编码结果,包括:
21、基于所述大语言模型,根据所述相对距离信息及每个所述语义单元的查询向量和键向量,确定所述目标输入信息对应的注意力得分信息;
22、根据所述注意力得分信息确定所述编码结果。
23、如此,本技术实施方式可使大语言模型基于由注意力分数信息所确定的编码结果,关注目标输入信息中第一语义单元相对于第二语义单元的相对距离,从而在一定程度上保障槽位识别和应用程序接口预测的可靠进行。
24、在本技术某些实施方式中,所述大语言模型的训练过程包括:
25、利用预先确定的输入信息样本,及所述输入信息样本中第三语义单元相对于第四语义单元的相对距离信息训练参考模型,得到所述大语言模型,其中,所述输入信息样本由所述目标提示信息和语音请求样本确定。
26、如此,本技术实施方式的服务器可通过输入信息样本训练参考模型以得到大语言模型,使得训练得到的大语言模型能较好地适用于包含语音请求和提示信息的输入信息处理,大语言模型的稳健性得以保障。
27、在本技术某些实施方式中,所述基于大语言模型,根据所述目标输入信息和所述目标输入信息中第一语义单元相对于第二语义单元的相对距离信息,确定所述当前语音请求对应的槽位识别结果和应用程序接口预测结果,包括:
28、基于大语言模型,根据所述目标输入信息和所述相对距离信息,确定所述槽位识别结果、所述应用程序接口预测结果及所述应用程序接口预测结果对应的目标参数。
29、如此,本技术实施方式中大语言模型可基于目标输入信息,完成槽位识别、应用程序接口预测,及确定用于将槽位识别结果填入应用程序接口的目标参数。
30、在本技术某些实施方式中,所述根据所述槽位识别结果和所述应用程序接口预测结果,输出执行结果下发至车辆完成语音交互,包括:
31、将所述槽位识别结果填充到所述应用程序接口预测结果对应的所述目标参数,得到应用程序接口参数填充的所述执行结果;
32、输出所述执行结果下发至车辆完成语音交互。
33、如此,本技术实施方式可基于槽位识别结果、应用程序接口预测结果及目标操作,将槽位识别结果填入应用程序接口相应的目标参数中。
34、本技术实施方式提供一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的语音交互方法。
35、本技术实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的语音交互方法。
36、本技术实施方式提供的服务器和计算机可读存储介质中,可通过大语言模型完成槽位识别、应用程序接口预测等任务,从而直接完成对语音请求的处理进行完成语音交互。本技术实施方式基于预先训练完成的大语言模型,减少了对于不同垂域的相关模型的调用,有效降低延时,提升对于用户语音请求的响应速度。本技术实施方式使得大语言模型可通过目标输入信息中的目标提示信息,及目标输入信息中第一语义单元相对于第二语义单元的相对距离信息,输出当前语音请求对应的槽位识别结果和应用程序接口预测结果,使得槽位识别结果的可靠程度和应用程序接口预测结果的可靠程度均能得到保障。
37、本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23261.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表