一种大数据驱动的数字人智能交互方法及系统与流程
- 国知局
- 2025-01-17 12:53:55
本发明涉及智能交互,尤其涉及一种大数据驱动的数字人智能交互方法及系统。
背景技术:
1、数字人,也称为虚拟数字人或数字虚拟人,是一种利用数字技术创造的虚拟形象,可以通过语音识别、自然语言处理等技术与人类进行交互,这种交互模拟了人与人之间的沟通方式,使得数字人能够理解和响应人类的语言、表情和行为。随着人工智能技术的飞速发展,数字人技术已成为连接现实与虚拟世界的重要桥梁,并被广泛应用于多个行业和领域。
2、但现有的数字人智能交互主要是利用tts(text to speech,文本转语音)技术将文本转化为语音,并结合相应的口型动画算法和动画库生成动作,其内容生产成本较低,然而,不加修饰合成的视音频往往动作单调、语调平坦,这限制了数字人的应用场景,即tts技术需要依赖专业设备和艺术家对输出结果的调校,以消除明显的电子音。同时,此类数字人只能够根据用户预设的时间点执行动作库中的动作,互动较为单一,导致数字人交互的准确度较差。
技术实现思路
1、本发明提供一种大数据驱动的数字人智能交互方法及系统,其主要目的在于解决数字人交互的准确度较差的问题。
2、为实现上述目的,本发明提供的一种大数据驱动的数字人智能交互方法,包括:
3、获取用户历史交互视频,提取所述用户历史交互视频中的交互音频及视频帧集合,对所述视频帧集合中的每个视频帧进行图像平滑及图像均衡,得到增强视频帧;
4、计算所述交互音频的单边自相关函数序列,根据所述单边自相关函数序列识别所述交互音频的交互文本;
5、分别提取所述增强视频帧、所述交互文本以及所述交互音频的特征时序信息,对所述特征时序信息进行特征交互,得到多模态特征;
6、根据所述多模态特征计算目标数字人的目标交互文本以及所述目标交互文本对应的目标交互语音,根据所述目标交互文本以及所述目标交互语音生成所述目标数字人的目标交互表情;
7、根据所述目标交互文本、所述目标交互语音及所述目标交互表情构建所述目标数字人的交互视频,利用所述交互视频与用户交互。
8、可选地,所述对所述视频帧集合中的每个视频帧进行图像平滑及图像均衡,得到增强视频帧,包括:
9、对所述视频帧集合中的每个视频帧进行傅里叶变换,得到图像频域;
10、对所述图像频域进行频域滤波,得到图像滤波频域,对所述图像滤波频域进行逆傅里叶变换,得到频域滤波图像;
11、利用如下公式对所述图像频域进行频域滤波:其中,表示图像频域在处的图像滤波频域,表示在处的图像频域,表示预设的截止频率,表示预设的低通滤波器阶数;
12、对所述频域滤波图像进行模版平滑,得到平滑图像;
13、对所述平滑图像进行直方图均衡,得到每个所述视频帧对应的增强图像帧。
14、可选地,所述计算所述交互音频的单边自相关函数序列,包括:
15、对所述交互音频进行信号划分,得到多个语音信号帧;
16、对每个所述语音信号帧进行汉明窗处理,得到加窗语音信号;
17、计算所述加窗语音信号的自相关函数,根据所述自相关函数生成单边自相关函数序列。
18、可选地,所述根据所述单边自相关函数序列识别所述交互音频的交互文本,包括:
19、对所述单边自相关函数序列进行平滑处理,得到目标自相关函数序列;
20、计算所述目标自相关函数序列的自相关函数,根据所述自相关函数计算自回归系数;
21、利用如下公式计算所述目标自相关函数序列的自相关函数:其中,表示自相关函数,表示一阶非负的时间延迟,表示目标自相关函数序列中目标自相关函数对应的加窗语音信号的信号长度,表示二阶自相关函数的时间延迟,表示加窗语音信号中第个样本的值;
22、根据所述自回归系数计算所述交互音频的倒谱系数,根据所述倒谱系数识别所述交互音频的交互文本。
23、可选地,所述分别提取所述增强视频帧、所述交互文本以及所述交互音频的特征时序信息,包括:
24、分别提取所述增强视频帧、所述交互文本以及所述交互音频进行样本划分,得到样本序列;
25、分别对所述样本序列进行特征卷积,得到卷积特征向量;
26、对所述卷积特征向量进行双向门控循环处理,得到双向隐藏特征;
27、对所述双向隐藏特征进行多头自注意力计算,得到特征权重;
28、根据所述特征权重对所述双向隐藏特征进行加权计算,得到所述增强视频帧、所述交互文本以及所述交互音频的特征时序信息。
29、可选地,所述对所述特征时序信息进行特征交互,得到多模态特征,包括:
30、计算所述特征时序信息之间的相关分数;
31、利用如下公式计算所述特征时序信息之间的相关分数:其中,表示第个特征时序信息与第个特征时序信息之间的相关分数,表示预设的激活函数,表示预设的相关权重;
32、根据所述相关分数对所述特征时序信息进行相关交互,得到交互特征;
33、对所述交互特征进行特征融合,得到多模态特征。
34、可选地,所述根据所述多模态特征计算目标数字人的目标交互文本以及所述目标交互文本对应的目标交互语音,包括:
35、根据所述多模态特征进行上下文预测,得到所述目标数字人的目标交互文本;
36、对所述目标交互文本进行特征编码,得到文本特征;
37、根据所述文本特征对所述目标交互文本进行情感分类,得到所述目标交互文本对应的文本情感;
38、根据所述文本情感对所述目标交互文本进行语音转换,得到目标交互语音。
39、可选地,所述根据所述目标交互文本以及所述目标交互语音生成所述目标数字人的目标交互表情,包括:
40、分别对所述目标交互文本以及所述目标交互语音进行预处理,得到增强交互文本以及增强交互语音;
41、提取所述增强交互文本以及所述增强交互语音的交互特征;
42、对所述交互特征进行特征拼接,得到融合交互特征;
43、根据所述融合交互特征识别所述目标数字人的交互情感,根据所述交互情感确定所述目标数字人的目标交互表情。
44、可选地,所述根据所述目标交互文本、所述目标交互语音及所述目标交互表情构建所述目标数字人的交互视频,包括:
45、根据所述目标交互语音及所述目标交互表情对所述目标数字人进行动态渲染,得到数字人视频;
46、将所述目标交互文本与所述数字人视频进行时间标定,得到文本时间;
47、根据所述文本时间对所述数字人视频进行文本标注,得到所述目标数字人的交互视频。
48、为了解决上述问题,本发明还提供一种大数据驱动的数字人智能交互系统,所述系统包括:
49、视频帧增强模块,用于获取用户历史交互视频,提取所述用户历史交互视频中的交互音频及视频帧集合,对所述视频帧集合中的每个视频帧进行图像平滑及图像均衡,得到增强视频帧;
50、交互文本识别模块,用于计算所述交互音频的单边自相关函数序列,根据所述单边自相关函数序列识别所述交互音频的交互文本;
51、多模态特征计算模块,用于分别提取所述增强视频帧、所述交互文本以及所述交互音频的特征时序信息,对所述特征时序信息进行特征交互,得到多模态特征;
52、目标交互表情计算模块,用于根据所述多模态特征计算目标数字人的目标交互文本以及所述目标交互文本对应的目标交互语音,根据所述目标交互文本以及所述目标交互语音生成所述目标数字人的目标交互表情;
53、用户交互模块,用于根据所述目标交互文本、所述目标交互语音及所述目标交互表情构建所述目标数字人的交互视频,利用所述交互视频与用户交互。
54、本发明实施例通过提取用户历史交互视频中的交互音频及视频帧集合,并对视频帧集合中的每个视频帧进行图像平滑及图像均衡,可以提高视频帧的图像质量,得到增强视频帧;识别交互音频的交互文本,可以更精确的获取交互时用户的语言,有利于数字人进行后续的理解及响应,提高数字人交互的准确度;提取多模态特征信息,可以更精确地计算目标数字人的目标交互文本以及对应的目标交互语音,能够提高用户交互的体验,实现更精确的交互;根据目标交互文本、目标交互语音及目标交互表情可以利用用户历史交互视频中的多模态信息灵活的生成目标交互文本以及富有情感的目标交互语音,实现精确的用户交互。因此本发明提出的大数据驱动的数字人智能交互方法及系统,可以解决数字人交互的准确度较差的问题。
本文地址:https://www.jishuxx.com/zhuanli/20250117/355812.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。