技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于元宇宙的虚拟数字人交互方法 > 正文

基于元宇宙的虚拟数字人交互方法

国知局
2024-06-21 11:33:50

本申请涉及人工智能，特别是涉及一种基于元宇宙的虚拟数字人交互方法。

背景技术：

1、元宇宙(metaverse)是利用科技手段进行链接和创造能与现实世界映射与交互的虚拟世界，具备新型社会体系的数字生活空间。元宇宙可以加速各行各业的数字化进程成为世界主要强国和主要科技巨头当前争相布局的战场。随着人工智能、大数据、移动互联网等新一代信息技术快速发展和普及应用，融合虚拟现实、增强现实、深度学习、语义理解、语音识别等多种技术的数字虚拟人正成为人工智能应用最广泛、最有发展潜力的领域之一。

2、相关技术中，主要是用户提前对元宇宙的虚拟数字人的语音内容和动作进行设置，元宇宙的虚拟数字人按照设置好的动作和语音内容进行播放，虚拟数字人无法根据不同的用户不同的需求与用户交互，使得元宇宙的虚拟数字人的交互性能较差。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高元宇宙的虚拟数字人的交互性能的基于元宇宙的虚拟数字人交互方法。

2、一种基于元宇宙的虚拟数字人交互方法，所述方法包括：

3、在虚拟数字人的交互界面中交互事件被触发时，获取所述交互事件被触发时接收到的交互数据，所述交互数据包括文本数据或语音数据；

4、在所述交互数据包括有语音数据的情况下，调用基于ctc模型与attention模型结合的语音识别模型对所述语音数据进行语音识别处理，获得识别的文本数据；

5、将所述文本数据或识别的文本数据通过api接口输入到chatgpt中进行处理，获得对应的回复数据；

6、调用基于tts技术的语音转换模型对所述回复文本进行语音转换，获得语音回复数据；

7、根据所述回复文本的内容，控制预先建模好的虚拟数字人执行相应的动作，并播放对应的语音回复数据。

8、在其中一个实施例中，所述基于ctc模型与attention模型结合的语音识别模型包括编码器、ctc模型、attention模型和解码融合模块；

9、所述编码器的输出端分别连接所述ctc模型、attention模型的输入端，所述ctc模型、attention模型的输出端连接解码融合模块。

10、在其中一个实施例中，所述ctc模型的表达式为：

11、

12、其中，为输入的数据序列的输出标签出现的概率，t为输入的数据序列的长度，为输入的数据序列的输出标签出现的概率，xt为输入的数据序列中的第t帧数据，为第t帧数据的输出标签，lt为输入的数据序列对应的所有可能输出序列的集合，为输入的数据序列的映射序列，x为输入的数据序列。

13、在其中一个实施例中，所述ctc模型的损失函数为：

14、

15、其中，lctc为损失函数，s为数据集。

16、在其中一个实施例中，虚拟数字人的建模方式为：

17、获取目标人脸图像；

18、根据所述目标人脸图像，采用facegen modeller进行面部建模，获得面部3d模型；

19、采用meta human绑定所述面部3d模型的面部关键点以及骨骼网络数据后，进行全身动捕和面部捕捉，生成虚拟数字人；

20、导入基于attention模型与ctc模型结合的语音识别模型和基于tts技术的语音转换模型，构建所述虚拟数字人的语音识别及回复功能；

21、获取chatgpt api keys，将chatgpt通过api接口与所述虚拟数字人相连，并根据所述虚拟数字人的交互界面的预设的事件发生逻辑，将交互界面的各事件依次进行关联，生成虚拟数字人交互界面。

22、在其中一个实施例中，在所述交互数据包括有语音数据的情况下，所述调用基于ctc模型与attention模型结合的语音识别模型对所述语音数据进行语音识别处理，获得识别的文本数据，包括：

23、在所述交互数据包括有语音数据的情况下，采用vad技术对所述语音数据进行首尾静音切除进行降噪，获得降噪后的语音数据；

24、调用基于ctc模型与attention模型结合的语音识别模型对所述降噪后的语音数据进行语音识别处理，获得识别的文本数据。

25、上述基于元宇宙的虚拟数字人交互方法，通过在虚拟数字人的交互界面中交互事件被触发时，获取所述交互事件被触发时接收到的交互数据，所述交互数据包括文本数据或语音数据，在所述交互数据包括有语音数据的情况下，调用基于ctc模型与attention模型结合的语音识别模型对所述语音数据进行语音识别处理，获得识别的文本数据，将所述文本数据或识别的文本数据通过api接口输入到chatgpt中进行处理，获得对应的回复数据，调用基于tts技术的语音转换模型对所述回复文本进行语音转换，获得语音回复数据，根据所述回复文本的内容，控制预先建模好的虚拟数字人执行相应的动作，并播放对应的语音回复数据。由此，虚拟数字人可以即时根据用户发出的交互数据做快速应答，实现用户和虚拟数字人的及时互动，提高了元宇宙的虚拟数字人的交互性能。

技术特征：

1.一种基于元宇宙的虚拟数字人交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于ctc模型与attention模型结合的语音识别模型包括编码器、ctc模型、attention模型和解码融合模块；

3.根据权利要求2所述的方法，其特征在于，所述ctc模型的表达式为：

4.根据权利要求3所述的方法，其特征在于，所述ctc模型的损失函数为：

5.根据权利要求1所述的方法，其特征在于，虚拟数字人的建模方式为：

6.根据权利要求1所述的方法，其特征在于，在所述交互数据包括有语音数据的情况下，所述调用基于ctc模型与attention模型结合的语音识别模型对所述语音数据进行语音识别处理，获得识别的文本数据，包括：

技术总结本申请涉及一种基于元宇宙的虚拟数字人交互方法。该方法包括：在虚拟数字人的交互界面中交互事件被触发时，获取所述交互事件被触发时接收到的交互数据，在所述交互数据包括有语音数据的情况下，调用基于CTC模型与Attention模型结合的语音识别模型对所述语音数据进行语音识别处理，获得识别的文本数据，将所述文本数据或识别的文本数据通过api接口输入到chatGPT中进行处理，获得对应的回复数据，调用基于TTS技术的语音转换模型对所述回复文本进行语音转换，获得语音回复数据，根据所述回复文本的内容，控制预先建模好的虚拟数字人执行相应的动作，并播放对应的语音回复数据。由此，提高了元宇宙的虚拟数字人的交互性能。技术研发人员：李钰雯,韦一潇,袁磊,钟恩受保护的技术使用者：东南大学技术研发日：技术公布日：2024/3/11