基于大语言模型的语音交互方法、装置及智能语音设备与流程
- 国知局
- 2024-06-21 11:57:51
本申请涉及语音处理,例如涉及一种基于大语言模型的语音交互方法、装置及智能语音设备。
背景技术:
1、智能语音设备的发展是近年来人工智能领域的一个重要分支,其利用语音识别、自然语言处理等技术,将人的语音转化为文字,并通过对文字的分析理解,作出相应的回应。目前,智能语音设备均配备有详尽的纸质或电子说明书,用户可以通过说明书了解产品特性和操作指南的关键资源。为了方便用户随时查阅,制造商通常会在产品包装或官方网站上提供说明书的存放位置或链接入口。用户可以依靠索引或搜索功能,快速找到特定功能的相关说明,以解决实际使用中遇到的问题。但无论出于哪种方式,用户获取设备专业知识的方式并不便捷。
2、现阶段,相关技术中,用户可以通过输入语音指令的方式,向智能语音设备传递设备专业知识的获取意向;智能语音设备可以通过其搭载的自然语言处理技术,理解用户的具体意向,以提供相应的反馈。
3、在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
4、通过这种方式进行语言处理时,对不同类型、不同表述方式的用户问题的理解和回答能力有限,用户无法及时获知智能语音设备的专业知识。
5、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本公开实施例提供了一种基于大语言模型的语音交互方法、装置及智能语音设备,能够使用户及时获知智能语音设备的专业知识。
3、在一些实施例中,所述基于大语言模型的语音交互方法包括:在接收到用户输入的语音交互数据的情况下,将语音交互数据转化为问题文本;在问题文本表示用户意图调用语音说明书的情况下,根据问题文本、已搭建的知识向量库及大语言模型,得到智能语音设备的语音回复信息;控制智能语音设备播报语音回复信息,以使用户及时获知智能语音设备的专业知识。
4、在一些实施例中,所述基于大语言模型的语音交互方法包括:调用与智能语音设备的标识信息相匹配的说明书,以作为知识文档;将知识文档添加至知识库文档中,并进行文档处理;利用词嵌入技术将处理后的文档转化为向量矩阵,以得到知识向量库。
5、在一些实施例中,所述基于大语言模型的语音交互方法包括:确定文档中的目标英文内容,将目标英文内容转换为中文内容;目标英文内容包括文档中非智能语音设备专有名词和品牌名称的英文内容;和/或,确定文档中待转换格式文档,将待转换格式文档转换为目标格式文档;待转换文档为文档中非目标格式的文档。
6、在一些实施例中,所述基于大语言模型的语音交互方法包括:对文档名称进行调整,以使文档名称的字数满足第一字数范围;和/或,对文档中第一标题及第二标题进行调整,以使第一标题及第二标题的字数满足第二字数范围;其中,第一字数范围的最小值大于第二字数范围的最大值。
7、在一些实施例中,所述基于大语言模型的语音交互方法包括:在接收到接口参数的情况下,按照接口参数对文档进行切割分块;其中,接口参数包括分块大小和/或分块方式,接口参数由开发者根据知识库文档的特性进行配置。
8、在一些实施例中,所述基于大语言模型的语音交互方法包括:将问题文本进行向量化处理,以得到用户问题向量;将用户问题向量与已搭建的知识向量库进行对比,以检索出向量相似度最高的文本段;将问题文本及文本段作为大语言模型的输入信息,输出相应的语音回复信息。
9、在一些实施例中,所述基于大语言模型的语音交互方法包括:对语音回复信息进行安全审查;在语音回复信息通过安全审查的情况下,控制智能语音设备播报语音回复信息,以使用户及时获知智能语音设备的专业知识。
10、在一些实施例中,所述基于大语言模型的语音交互方法包括:在语音回复信息未通过安全审查的情况下,控制智能语音设备播报敏感问题回复信息。
11、在一些实施例中,所述基于大语言模型的语音交互装置包括:处理器和存储有程序指令的存储器,处理器被配置为在运行程序指令时,执行前述的基于大语言模型的语音交互方法。
12、在一些实施例中,所述智能语音设备包括:智能语音设备本体;及前述的基于大语言模型的语音交互装置,安装于智能语音设备本体。
13、本公开实施例提供的基于大语言模型的语音交互方法、装置及智能语音设备,可以实现以下技术效果:
14、能够在问题文本表示用户意图调用语音说明书时,利用问题文本、已搭建的知识向量库和大语言模型,对用户的问题进行深度分析和理解;并基于对用户问题的深度理解,生成相应的语音回复信息;以便通过控制智能语音设备播报语音回复信息的方式,使用户及时获知智能语音设备的专业知识,提升了用户对智能语音设备的使用体验。
15、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
技术特征:1.一种基于大语言模型的语音交互方法,其特征在于,包括:
2.根据权利要求1的方法,其特征在于,通过以下方式搭建知识向量库:
3.根据权利要求2的方法,其特征在于,文档处理包括:
4.根据权利要求2的方法,其特征在于,文档处理包括:
5.根据权利要求3或4的方法,其特征在于,还包括:
6.根据权利要求1至5任一项所述的方法,其特征在于,根据所述问题文本、已搭建的知识向量库及大语言模型,得到智能语音设备的语音回复信息,包括:
7.根据权利要求1至5任一项所述的方法,其特征在于,控制所述智能语音设备播报所述语音回复信息,以使用户及时获知智能语音设备的专业知识,包括:
8.根据权利要求7所述的方法,其特征在于,还包括:
9.一种基于大语言模型的语音交互装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至8任一项所述的基于大语言模型的语音交互方法。
10.一种智能语音设备,其特征在于,包括:
技术总结本申请涉及语音处理技术领域,公开一种基于大语言模型的语音交互方法,包括:在接收到用户输入的语音交互数据的情况下,将语音交互数据转化为问题文本;在问题文本表示用户意图调用语音说明书的情况下,根据问题文本、已搭建的知识向量库及大语言模型,得到智能语音设备的语音回复信息;控制智能语音设备播报语音回复信息。以此方案,可以利用问题文本、已搭建的知识向量库和大语言模型,对用户的问题进行分析;并基于对用户问题的理解,生成相应的语音回复信息;以便通过控制智能语音设备播报语音回复信息的方式,使用户及时获知智能语音设备的专业知识。本申请还公开一种基于大语言模型的语音交互装置及智能语音设备。技术研发人员:李伟,劳春峰,贾奇伟,李志宏受保护的技术使用者:青岛海尔空调器有限总公司技术研发日:技术公布日:2024/6/11本文地址:https://www.jishuxx.com/zhuanli/20240618/24754.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表