技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种融合唇语生成的视频翻译方法  >  正文

一种融合唇语生成的视频翻译方法

  • 国知局
  • 2024-06-21 10:44:24

本发明涉及图像处理,具体指一种融合唇语生成的视频翻译方法。

背景技术:

1、随着全球化的不断发展,跨语言沟通已经成为日常生活和商业活动中的一个关键挑战。虽然已经存在实时音频或字幕翻译技术,但这些方法常常未能解决一个关键问题:如何在进行语言翻译的同时,实现演讲者的嘴唇运动与其所说话语的同步对应。当前的唇语生成技术通常仅限于单一说话人的应用,无法有效处理多人对话场景,存在很大的局限性。

技术实现思路

1、本发明根据现有技术的不足,提出一种融合唇语生成的视频翻译方法,以实现不同语言说话视频之间包括语音与唇语的变换。

2、为了解决上述技术问题,本发明的技术方案为:

3、一种融合唇语生成的视频翻译方法,包括如下步骤:

4、s1、生成身份信息匹配表

5、s11、构建生物特征数据库,以视频中发言人物为单位,提取视频中多种角度的人脸图像和声纹数据,并预处理

6、s12、将对应的人物身份进行编码,得到标注有人物编码的人脸图像和声纹数据;

7、s13、采用openface方法进行逐帧视频处理实现人脸识别得到人脸信息,采用deepspeaker方法进行逐帧视频处理实现声纹识别的到声纹信息;

8、s14、将人物编码-人脸信息-声纹信息进行匹配,生成统一编码信息匹配表;

9、s2、使用gentle forced aligner工具进行音频文本对齐;

10、s3、对视频片段中人脸以及音频中声纹进行特征提取,通过与步骤s1中生成的身份信息匹配表进行对比,确认视频中发言人物的人脸身份;

11、s4、唇语生成,利用人脸身份对应生成音频翻译后该发言人物的唇部动作;

12、s5、将处理好的各个视频片段进行拼接,得到语音翻译和生成对应唇语的视频版本。

13、作为优选,所述步骤s11中,人脸图像的预处理方法为:通过裁剪和缩放,使得人脸图像的尺寸和质量;声纹数据的预处理方法为:对声纹数据进行去噪、语音段提取和特征提取。

14、作为优选,所述步骤s13中,采用openface方法得到人脸信息的具体方法为:

15、使用openface对预处理后的每张人脸图像进行特征提取,得到嵌入向量;计算每对人脸图像之间的余弦相似性,并构建匹配表一,如果两个人脸图像的余弦相似性高于阈值,则被认为是同一身份;

16、将每个人脸图像的身份标签与匹配表一中的匹配结果关联得到人脸信息。

17、作为优选,所述s13中通过openface提取特征的方法:

18、给定一个人脸图像i,openface首先通过卷积神经网络提取特征,表达式如下:

19、f(i)=φ(i)

20、其中,f(i)是人脸图像i的特征嵌入,φ(i)是卷积神经网络的输出。

21、作为优选,所述s13中余弦相似性的计算方法:

22、使用三元组损失来学习特征嵌入,对于每个训练样本,选择三个样本:锚定样本a、正样本p和负样本n,三元组损失的目标是最大化a和p之间的余弦相似性,同时最小化a和n之间的余弦相似性:

23、l(a,p,n)=max(0,m+sim(a,n)-sim(a,p))

24、其中,m是三元组损失的间隔参数,sim(·,·)表示两则之间的余弦相似性。

25、作为优选,所述步骤s13中,采用deep speaker方法得到声纹信息的具体方法为:

26、使用deep speaker对数据集中的每段语音信号进行声纹特征提取,得到声纹特征向量,计算每对声纹特征向量之间的相似性度量,并构建匹配表二,如果两个声纹特征向量之间的相似性高于设定的阈值,则被认为属于同一身份;

27、将每个说话者的身份标签与匹配表中的匹配结果关联得到声纹信息。

28、作为优选,所述步骤s13中,通过deep speaker提取特征的方法为:接受声音信号,将其转化为频谱图;声学特征提取器使用cnn层来提取频谱图的空间特征;时域编码:rnn层处理频谱图,捕捉声音的时序信息;说话人特征提取:deep speaker的最后一层输出是一个说话人特征向量,得到声纹特征向量。

29、作为优选,所述步骤s2的具体方法为:

30、首先提取出视频的音频,调用该工具转写功能,创建音频的文本转写;然后将音频中的语音段与文本进行对齐,经过验证与微调后得到获得音频中人声的精确时间分割并做标注。

31、作为优选,所述步骤s4的具体方法为:

32、s41、使用vits模型输入文本信息,编码文本信息并生成相应的语音波形;

33、s42、得到语音波形后,将静音后的原视频片段和翻译后的语音波形一起输入值wav2lip网络中,最终得到目标视频片段。

34、本发明具有以下的特点和有益效果:

35、采用上述技术方案,应用多模态生物特征身份识别技术涵盖了声音、嘴唇运动、脸部表情和其他生物特征的分析。通过将这些特征结合起来,可以更准确地识别并跟踪说话者的身份,从而实现更精确的唇语生成。因此,本专利提供一种融合唇语生成和多模态生物特征身份识别技术的视频翻译方法,以实现不同语言说话视频之间包括语音与唇语的变换。

技术特征:

1.一种融合唇语生成的视频翻译方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s11中,人脸图像的预处理方法为:通过裁剪和缩放,使得人脸图像的尺寸和质量;声纹数据的预处理方法为:对声纹数据进行去噪、语音段提取和特征提取。

3.根据权利要求1所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s13中,采用openface方法得到人脸信息的具体方法为:

4.根据权利要求3所述的一种融合唇语生成的视频翻译方法,其特征在于,所述s13中通过openface提取特征的方法:

5.根据权利要求4所述的一种融合唇语生成的视频翻译方法,其特征在于,所述s13中余弦相似性的计算方法:

6.根据权利要求3所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s13中,采用deep speaker方法得到声纹信息的具体方法为:

7.根据权利要求3所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s14中,将匹配表一和匹配表二中的人物编码-人脸信息-声纹信息进行匹配,进而生成统一编码信息匹配表。

8.根据权利要求6所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s13中,通过deep speaker提取特征的方法为:接受声音信号,将其转化为频谱图;声学特征提取器使用cnn层来提取频谱图的空间特征;时域编码:rnn层处理频谱图,捕捉声音的时序信息;说话人特征提取:deep speaker的最后一层输出是一个说话人特征向量,得到声纹特征向量。

9.根据权利要求1所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s2的具体方法为:

10.根据权利要求1所述的一种融合唇语生成的视频翻译方法,其特征在于,所述步骤s4的具体方法为:

技术总结本发明公开了一种融合唇语生成的视频翻译方法,包括如下步骤:S1:生成身份信息匹配表步骤,用以为后续唇语生成步骤中正确目标的面部驱动提供多模态生物信息;S2:音频文本对齐步骤,用以识别音频文本并将音频以句子为单位正确分段;S3:人脸目标检测步骤,利用所述人脸声纹身份匹配信息确认视频中所呈现的一个或多个人脸身份;S4:唇语生成步骤,利用所述身份对应生成音频翻译后该人脸的唇部动作;S5:视频组装步骤,将所述生成视频片段组装拼接。该方法,以实现不同语言说话视频之间包括语音与唇语的变换。技术研发人员:赵子莹,张奉静,何璞玉,余宙受保护的技术使用者:杭州电子科技大学技术研发日:技术公布日:2024/2/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/21463.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。