一种基于深度学习的口型生成方法、装置以及存储介质与流程
- 国知局
- 2024-10-21 15:12:37
本申请涉及自然语言处理,特别是涉及一种基于深度学习的口型生成方法、装置以及存储介质。
背景技术:
1、目前,传统的基于规则的口型生成技术主要是基于人工规则和经验,通过对语音信号进行分析和处理,生成对应的口型动画。但是这种技术需要大量的人工参与和规则制定,且难以适应不同人的口型差异和语音变化。
2、基于传统机器学习的口型生成技术主要是基于传统的机器学习算法,如支持向量机、隐马尔可夫模型等,通过对语音信号和口型数据进行训练和学习,生成对应的口型动画。但是这种技术需要大量的数据和特征工程,且难以处理复杂的语音信号和口型变化。
3、基于语音合成技术的口型生成技术主要是将文本转换为语音信号,其核心是将文本转换为音素序列,并通过人工神经网络进行处理和合成,最终输出语音信号。
4、然而,上述这些技术的效果通常只能局限于训练集中的人脸,难以适应不同的人脸和语音,导致口型生成效果差。基于此,如何实现准确、高效、适应性强的口型生成效果是亟待解决的问题。
技术实现思路
1、本公开的实施例提供了一种基于深度学习的口型生成方法、装置以及存储介质。以至少解决现有技术中存在的无法实现准确、高效、适应性强的口型生成效果的技术问题。
2、根据本公开实施例的一个方面,提供了一种基于深度学习的口型生成方法,包括:
3、获取目标对象的音频数据,并使用预先创建的音频特征提取器提取音频数据的音频特征;
4、将音频特征输入预先创建的编码器,确定音频特征的隐层表征;其中,隐层表征用于反映音频特征中的语音特征;
5、将隐层表征输入预先创建的音素解码器,确定隐层表征包含的各个音素的音素权重;
6、将音素权重和预先创建的对照表输入训练好的口型生成模型,确定目标对象的口型信息,并将口型信息转换为口型图像;其中,对照表为通过将不同的音素与对应的口型进行匹配后得到的对照表。
7、可选地,使用预先创建的音频特征提取器提取音频数据的音频特征的操作,包括:
8、定义滑动窗口的大小和步长;
9、从音频数据的起始位置处,应用所定义的滑动窗口的大小和步长,逐次移动窗口,直到覆盖整个音频数据;
10、对于每一个滑动窗口内的音频数据,使用预先创建的音频特征提取器进行音频特征的提取,得到音频数据的音频特征。
11、可选地,将音频特征输入预先创建的编码器,确定音频特征的隐层表征的操作,包括:
12、将音频特征输入预先创建的编码器;
13、通过编码器对音频特征进行非线性变换和降维操作,得到音频特征的隐层表征。
14、可选地,将隐层表征输入预先创建的音素解码器,确定隐层表征包含的各个音素的音素权重的操作,包括:
15、将隐层表征输入预先创建的音素解码器;
16、通过音素解码器对隐层表征进行非线性变换和映射操作,得到隐层表征包含的各个音素的音素权重。
17、可选地,编码器的网络结构采用卷积神经网络或者循环神经网络,编码器的损失函数采用均方误差函数或者交叉熵损失函数,编码器的激活函数采用relu函数。
18、可选地,音素解码器的网络结构采用多层感知器或者循环神经网络,音素解码器的损失函数采用分类交叉熵损失函数,音素解码器的激活函数采用softmax函数。
19、根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上所述的方法。
20、根据本公开实施例的另一个方面,还提供了一种基于深度学习的口型生成装置,包括:
21、音频特征提取模块,用于获取目标对象的音频数据,并使用预先创建的音频特征提取器提取音频数据的音频特征;
22、隐层表征确定模块,用于将音频特征输入预先创建的编码器,确定音频特征的隐层表征;其中,隐层表征用于反映音频特征中的语音特征;
23、音素权重确定模块,用于将隐层表征输入预先创建的音素解码器,确定隐层表征包含的各个音素的音素权重;
24、口型生成模块,用于将音素权重和预先创建的对照表输入训练好的口型生成模型,确定目标对象的口型信息,并将口型信息转换为口型图像;其中,对照表为通过将不同的音素与对应的口型进行匹配后得到的对照表。
25、可选地,音频特征提取模块,具体用于:
26、定义滑动窗口的大小和步长;
27、从音频数据的起始位置处,应用所定义的滑动窗口的大小和步长,逐次移动窗口,直到覆盖整个音频数据;
28、对于每一个滑动窗口内的音频数据,使用预先创建的音频特征提取器进行音频特征的提取,得到音频数据的音频特征。
29、根据本公开实施例的另一个方面,还提供了一种基于深度学习的口型生成装置,包括:
30、处理器;以及
31、存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:
32、获取目标对象的音频数据,并使用预先创建的音频特征提取器提取音频数据的音频特征;
33、将音频特征输入预先创建的编码器,确定音频特征的隐层表征;其中,隐层表征用于反映音频特征中的语音特征;
34、将隐层表征输入预先创建的音素解码器,确定隐层表征包含的各个音素的音素权重;
35、将音素权重和预先创建的对照表输入训练好的口型生成模型,确定目标对象的口型信息,并将口型信息转换为口型图像;其中,对照表为通过将不同的音素与对应的口型进行匹配后得到的对照表。
36、本申请的技术方案首先获取音频数据和使用预先创建的音频特征提取器提取音频特征,能够从原始音频数据中提取出关键的信息或特征,比如声音的频率、能量分布、音色,为后续的语音分析和处理奠定基础。然后,将音频特征输入预先创建的编码器,输出一个更紧凑、更抽象的隐层表征,该隐层表征用于反映音频特征中的语音特征,能够捕获到声音中与语音直接相关的关键信息,为后续的音素分析和口型生成提供数据支撑。其次,通过音素解码器将隐层表征转换为一组音素的权重,即识别出音频中各个音素的贡献程度,能够将音频数据从连续的声音波形转换为离散的音素表示,为后续的口型生成提供更为直接和有效的信息。最后,将音素权重和预先创建的对照表输入训练好的口型生成模型,生成与音频中的语音内容相匹配的口型信息,并将口型信息转换为口型图像。本发明通过学习人类口型运动规律,实现更加自然、流畅的语音合成效果,口型生成效果准确且高效。同时,本发明可以应用于语音合成、虚拟现实、人机交互等领域,为用户提供更加真实、逼真的体验,从而大大提高了其适应性和实用性。此外,本发明只需要音频输入即可输出对应的口型,这使得其在实际应用中更加方便快捷。从而解决了现有技术无法实现准确、高效、适应性强的口型生成效果的技术问题。
技术特征:1.一种基于深度学习的口型生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,使用预先创建的音频特征提取器提取所述音频数据的音频特征的操作,包括:
3.根据权利要求1所述的方法,其特征在于,将所述音频特征输入预先创建的编码器,确定所述音频特征的隐层表征的操作,包括:
4.根据权利要求1所述的方法,其特征在于,将所述隐层表征输入预先创建的音素解码器,确定所述隐层表征包含的各个音素的音素权重的操作,包括:
5.根据权利要求1所述的方法,其特征在于,所述编码器的网络结构采用卷积神经网络或者循环神经网络,所述编码器的损失函数采用均方误差函数或者交叉熵损失函数,所述编码器的激活函数采用relu函数。
6.根据权利要求1所述的方法,其特征在于,所述音素解码器的网络结构采用多层感知器或者循环神经网络,所述音素解码器的损失函数采用分类交叉熵损失函数,所述音素解码器的激活函数采用softmax函数。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。
8.一种基于深度学习的口型生成装置,其特征在于,包括:
9.根据权利要求8所述的装置,其特征在于,所述音频特征提取模块,具体用于:
10.一种基于深度学习的口型生成装置,其特征在于,包括:
技术总结本申请公开了一种基于深度学习的口型生成方法、装置以及存储介质。其中,方法包括:获取目标对象的音频数据,并使用预先创建的音频特征提取器提取音频数据的音频特征;将音频特征输入预先创建的编码器,确定音频特征的隐层表征;其中,隐层表征用于反映音频特征中的语音特征;将隐层表征输入预先创建的音素解码器,确定隐层表征包含的各个音素的音素权重;将音素权重和预先创建的对照表输入训练好的口型生成模型,确定目标对象的口型信息,并将口型信息转换为口型图像;其中,对照表为通过将不同的音素与对应的口型进行匹配后得到的对照表。技术研发人员:黄伊诺,张玥,周开龙,马春春,刘俊受保护的技术使用者:上海强仝智能科技有限公司技术研发日:技术公布日:2024/10/17本文地址:https://www.jishuxx.com/zhuanli/20241021/320869.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。