技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种采用大模型增强虚拟数字人对话系统的制作方法 > 正文

一种采用大模型增强虚拟数字人对话系统的制作方法

国知局
2024-06-21 11:56:09

本发明涉及人机交互，尤其是涉及一种采用大模型增强虚拟数字人对话系统。

背景技术：

1、人工智能大家并不陌生，在发展过程中，也有一些语言模型的研究，但这些模型往往只能处理一些简单的语言任务，无法和人类进行自然的交流，通常答非所问，达不到人机交互的基本要求，如何实现人机交互的进一步发展成为我们亟待解决的问题。

2、现有技术中，专利(申请号：202311701121.4)公开了采用chatgpt和虚幻引擎增强metahuman数字人对话效果的方法及系统，包括以下步骤：s1、创建metahuman数字人模型，将其导入虚幻引擎项目，使用虚幻引擎的动画蓝图调整和创建所需的动作和表情；s2、在虚幻引擎项目中创建用户界面，通过虚幻引擎蓝图程序接收用户多模态输入的问题，并将其转换为文本发送至虚幻引擎后台；s3、调用chatgpt获取文本形式问题的答案，检查答案合法性后，利用算法对正常答案进行分段，并生成语音文件，保存并记录生成的语音文件地址及用户反馈；s4、在用户界面上展示文本对话，同时使用varest插件解析语音文件地址，并将其添加到流媒体源url地址；s5、根据解析的url地址进行语音播放，并执行口型动画蓝图控制metahuman数字人口型动画模拟用户说话动作完成对话。但是采用chatgpt，openai官方原则上不为中国区提供服务，导致国内用户无法直接访问，但国内开发者通过技术手段接入了openai的api接口，或者开发了基于chatgpt的网站和应用，使得国内用户也能体验到类似的服务，国内开发者提供的版本可能在功能上有所限制，不一定能提供与官方相同的体验，使用第三方提供的chatgpt服务时，用户的数据安全性无法得到保障。

技术实现思路

1、鉴于以上问题，本发明提供了一种采用大模型增强虚拟数字人对话系统，不仅可以增强虚拟数字人在多轮对话中的连贯性和适应性，有助于上下文的理解，实现连贯的多轮对话，而且可以提高虚拟数字人回复的通顺性及多样性，能够更好地理解和回应乘客的需求，更接近真实人类的交流方式。

2、为了实现上述目的及其他相关目的，本发明提供的技术方案如下：

3、一种采用大模型增强虚拟数字人对话系统，包括控制器子系统、spark子系统和大模型子系统，所述控制器子系统包括语音模块和launcher模块，所述语音模块用于集成了语音识别和语音唤醒功能，实时获取交互人的语音的数据信息，所述launcher模块用于输出交互人的反馈语音的数据信息；所述spark子系统包括输入模块和输出模块，所述输入模块与所述语音模块连接用于接收交互人的语音的数据信息，同时输出给所述大模型子系统，所述输出模块与所述launcher模块连接，用于接收所述大模型子系统的输入信息，同时输出给所述launcher模块；所述大模型子系统，与所述spark子系统连接，用于接收交互人的语音的数据信息，构建交互人语音反馈大模型，对交互人的语音的数据信息进行反馈，输出交互人的反馈语音的数据信息。

4、进一步的，所述构建交互人语音反馈大模型，对交互人的语音的数据信息进行反馈包括：

5、m1.采集语音对话数据集，构建对话人的语音矩阵数据信息和对话人的反馈语音矩阵数据信息；

6、m2.基于所述对话人的语音矩阵数据信息和所述对话人的反馈语音矩阵数据信息，建立交互人语音反馈函数f，

7、

8、其中，x为对话人的语音矩阵数据信息，y为对话人的反馈语音矩阵数据信息，α和β语音反馈调节因子；

9、m3.基于所述交互人语音反馈函数f，构建交互人语音反馈大模型，对交互人的语音的数据信息进行反馈，输出交互人的反馈语音的数据信息。

10、进一步的，在步骤m2中，所述语音反馈调节因子α和β的约束条件为，

11、

12、进一步的，所述语音反馈调节因子α为，

13、

14、所述语音反馈调节因子β为，

15、

16、其中，x为对话人的语音矩阵数据信息，y为对话人的反馈语音矩阵数据信息。

17、进一步的，所述交互人语音反馈大模型包括语音输入层、交互人语音反馈函数层和语音反馈层，所述语音反馈层与所述交互人语音反馈函数层连接，所述交互人语音反馈函数层与所述语音输入层连接。

18、进一步的，所述交互人语音输入层用于采用语音模糊数据增强算法对输入的交互人的语音数据信息进行增强处理，得到增强处理后的交互人语音数据信息。

19、进一步的，所述采用语音模糊数据增强算法对输入的交互人的语音数据信息进行增强处理包括：

20、u1.基于所述输入的交互人的语音数据信息，构建交互人的语音信息的模糊矩阵，得到交互人的语音信息的模糊矩阵数据信息；

21、u2.基于所述交互人的语音信息的模糊矩阵数据信息，建立交互人的语音信息的融合函数j，

22、

23、其中，a为输入的交互人的语音数据信息，z为交互人的语音信息的模糊矩阵数据信息，λ1和λ2为语音信息融合因子；

24、u3.基于所述交互人的语音信息的融合函数j，对输入的交互人的语音数据信息进行增强处理，得到增强处理后的交互人语音数据信息。

25、进一步的，所述语音信息融合因子λ1和λ2的约束条件为，

26、

27、进一步的，所述launcher模块包括ui显示单元、tts播报单元和vpa数字人模型单元，用于将大模型输出的结果进行展示，所述tts播报单元配合所述ui显示单元显示所述vpa数字人模型单元的数字人相应的动作数据信息。

28、进一步的，所述输出模块包括片段文字单元和异常处理单元，所述片段文字单元与所述异常处理单元连接，用于将所述片段文字单元检测出的文字异常数据信息传输给所述异常处理单元进行处理。

29、本发明具有以下积极效果：

30、1.本发明通过构建交互人语音反馈大模型，对交互人的语音的数据信息进行反馈，输出交互人的反馈语音的数据信息，不仅可以提高虚拟数字人回复的通顺性及多样性，能够更好地理解和回应乘客的需求，更接近真实人类的交流方式，而且可以扩展多种功能，比如问答交互、新闻播报，在乘车过程中，长时间没有交互也可以结合大模型和乘客进行一些互动。

31、2.本发明通过采用语音模糊数据增强算法对输入的交互人的语音数据信息进行增强处理，不仅可以增强虚拟数字人在多轮对话中的连贯性和适应性，有助于上下文的理解，实现连贯的多轮对话，而且将大模型结果和虚拟数字人结合进行播报，增强数字人与用户之间更自然的交互。

技术特征：

1.一种采用大模型增强虚拟数字人对话系统，包括控制器子系统、spark子系统和大模型子系统，其特征在于，

2.根据权利要求1所述的采用大模型增强虚拟数字人对话系统，其特征在于，所述构建交互人语音反馈大模型，对交互人的语音的数据信息进行反馈包括：

3.根据权利要求2所述的采用大模型增强虚拟数字人对话系统，其特征在于，在步骤m2中，所述语音反馈调节因子α和β的约束条件为，

4.根据权利要求2所述的采用大模型增强虚拟数字人对话系统，其特征在于：所述语音反馈调节因子α为，

5.根据权利要求2所述的采用大模型增强虚拟数字人对话系统，其特征在于：所述交互人语音反馈大模型包括语音输入层、交互人语音反馈函数层和语音反馈层，所述语音反馈层与所述交互人语音反馈函数层连接，所述交互人语音反馈函数层与所述语音输入层连接。

6.根据权利要求3所述的采用大模型增强虚拟数字人对话系统，其特征在于：所述交互人语音输入层用于采用语音模糊数据增强算法对输入的交互人的语音数据信息进行增强处理，得到增强处理后的交互人语音数据信息。

7.根据权利要求6所述的采用大模型增强虚拟数字人对话系统，其特征在于，所述采用语音模糊数据增强算法对输入的交互人的语音数据信息进行增强处理包括：

8.根据权利要求7所述的采用大模型增强虚拟数字人对话系统，其特征在于：所述语音信息融合因子λ1和λ2的约束条件为，

9.根据权利要求1所述的采用大模型增强虚拟数字人对话系统，其特征在于：所述launcher模块包括ui显示单元、tts播报单元和vpa数字人模型单元，用于将大模型输出的结果进行展示，所述tts播报单元配合所述ui显示单元显示所述vpa数字人模型单元的数字人相应的动作数据信息。

10.根据权利要求1所述的采用大模型增强虚拟数字人对话系统，其特征在于：所述输出模块包括片段文字单元和异常处理单元，所述片段文字单元与所述异常处理单元连接，用于将所述片段文字单元检测出的文字异常数据信息传输给所述异常处理单元进行处理。

技术总结本发明涉及一种采用大模型增强虚拟数字人对话系统，包括控制器子系统、SPARK子系统和大模型子系统，所述控制器子系统包括语音模块和Launcher模块，所述语音模块用于集成了语音识别和语音唤醒功能，实时获取交互人的语音的数据信息，所述Launcher模块用于输出交互人的反馈语音的数据信息；所述SPARK子系统包括输入模块和输出模块，所述输入模块与所述语音模块连接用于接收交互人的语音的数据信息。本发明不仅可以增强虚拟数字人在多轮对话中的连贯性和适应性，有助于上下文的理解，实现连贯的多轮对话，而且可以提高虚拟数字人回复的通顺性及多样性，能够更好地理解和回应乘客的需求，更接近真实人类的交流方式。技术研发人员：江丰年,蔡营受保护的技术使用者：东风悦享科技有限公司技术研发日：技术公布日：2024/6/5