技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于配音的辅助翻译和嘴唇匹配的系统和方法与流程 > 正文

用于配音的辅助翻译和嘴唇匹配的系统和方法与流程

国知局
2024-06-21 11:39:45

背景技术：

1、配音是将视频(例如，电影、电视节目)的语音从原始语言翻译和替换为目标语言的任务。由于将翻译的持续时间与原始语音匹配(在本文中称为“持续时间匹配”)以及将翻译的单词(word)与原始视频的嘴唇运动、面部表情、手势和身体语言匹配(在本文中统称为“嘴唇匹配”)的复杂性，专业配音目前是劳动密集型且昂贵的任务。通常，该过程至少需要：(1)翻译者，以创建翻译的对话；(2)改编者，其进行持续时间匹配，避免翻译与视频中的各种手势和其他声音之间的不匹配，并且可以建议其他改变以使翻译符合本地习语；(3)语音演员，其执行翻译并且可以进行进一步调整以便对某些音节进行定时以对应于屏幕上的动作和说话者的嘴唇位置；以及(4)音频编辑者，其可以进一步微调新记录的配音的定时，以进一步改善嘴唇匹配。在许多情况下，持续时间匹配和嘴唇匹配提出了使该过程复杂化和延长的竞争需求。因此，可能希望使用使这些步骤中的一些或全部自动化或辅助这些步骤中的一些或全部的系统和方法来减少与配音相关联的成本和时间。

技术实现思路

1、本技术涉及用于生成用于在创建合成或人类扮演的配音中使用的候选翻译，帮助人类翻译者生成与对应视频匹配的翻译，(基于对对应视频的分析)自动对候选翻译与对应视频匹配的程度进行分级，建议对翻译文本的速度和/或定时的修改以改善候选翻译的分级，以及建议对配音和/或视频的修改以改善候选翻译的分级的系统和方法。在这方面，本技术可以用于完全自动化生成嘴唇匹配的翻译和相关联的配音的过程(包括从文本输入合成语音输出)，或者作为可以减少(或消除)翻译者、改编者、语音演员和/或音频编辑者生成配音所花费的时间和精力量的人机循环(human-in-the-loop，“hitl”)过程的辅助。以这种方式，本技术可以提供一种更便宜且资源密集度更低的配音方法，该方法可以以更快和/或计算效率更高的方式生成配音的视频。

2、在一个方面，本公开描述了一种计算机实现的方法，包括：(i)使用处理系统的一个或多个处理器，使用文本到语音合成器基于文本序列生成合成音频剪辑，合成音频剪辑包括与文本序列相对应的合成语音；以及(ii)对于包括多个视频帧的视频剪辑的每个给定视频帧：(a)使用一个或多个处理器处理视频剪辑，以基于给定视频帧获得给定图像；(b)使用所述一个或多个处理器处理合成音频剪辑，以获得与给定视频帧相对应的的音频数据的给定片段；(c)使用所述一个或多个处理器处理音频数据的给定片段，以生成给定音频频谱图图像；以及(d)使用一个或多个处理器，使用语音-嘴部一致性模型，基于给定图像和给定音频频谱图图像生成给定视频帧的帧级语音-嘴部一致性分数。在一些方面，该方法还包括使用一个或多个处理器至少部分地基于生成的与多个视频帧中的每个给定视频帧相对应的帧级语音-嘴部一致性分数来生成总分数。在一些方面，该方法还包括：使用一个或多个处理器识别与文本序列的给定单词相对应的生成的帧级语音-嘴部一致性分数的集合；以及使用一个或多个处理器，基于识别的生成的帧级语音-嘴部一致性分数的集合来生成给定单词的单词级语音-嘴部一致性分数。在一些方面，该方法还包括使用一个或多个处理器至少部分地基于生成的与文本序列的每个给定单词相对应的单词级语音-嘴部一致性分数来生成总分数。在一些方面，该方法还包括使用一个或多个处理器基于合成音频剪辑的长度与视频剪辑的长度的比较来生成持续时间分数。在一些方面，该方法还包括：使用一个或多个处理器处理视频剪辑以识别来自视频剪辑中可见的说话者的一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，视频剪辑还包括原始音频数据，并且该方法还包括：使用一个或多个处理器处理原始音频数据以识别记录在原始音频数据中的由说话者说出的一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及，对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：使用一个或多个处理器处理视频剪辑的转录以识别一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：使用一个或多个处理器处理合成音频剪辑以识别在合成音频剪辑的合成语音中说出的一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：使用一个或多个处理器处理文本序列以识别一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：基于总分数满足预定标准，使用一个或多个处理器选择合成音频剪辑；使用所述一个或多个处理器将所述合成音频剪辑与所述视频剪辑组合以生成修改的视频；以及使用一个或多个处理器输出修改的视频。

3、在另一方面，本公开描述了一种包括指令的非暂时性计算机可读介质，所述指令在被执行时使得一个或多个处理器执行前述段落中阐述的操作。

4、在另一方面，本发明描述了一种系统，其包括：(1)存储器；以及(2)一个或多个处理器，其耦合到所述存储器并且被配置为：(i)使用文本到语音合成器，基于文本序列生成合成音频剪辑，所述合成音频剪辑包括与所述文本序列相对应的合成语音；以及(ii)对于包括多个视频帧的视频剪辑的每个给定视频帧：(a)处理视频剪辑以基于给定视频帧获得给定图像；(b)处理所述合成音频剪辑以获得与所述给定视频帧相对应的音频数据的给定片段；(c)处理音频数据的给定片段以生成给定音频频谱图图像；以及(d)使用语音-嘴部一致性模型，基于给定图像和给定音频频谱图图像生成给定视频帧的帧级语音-嘴部一致性分数。在一些方面，一个或多个处理器还被配置为至少部分地基于生成的与多个视频帧中的每个给定视频帧相对应的帧级语音-嘴部一致性分数来生成总分数。在一些方面，一个或多个处理器还被配置为：识别与文本序列的给定单词相对应的生成的帧级语音-嘴部一致性分数的集合；以及基于识别的生成的帧级语音-嘴部一致性分数的集合来生成给定单词的单词级语音-嘴部一致性分数。在一些方面，一个或多个处理器还被配置为至少部分地基于与文本序列的每个给定单词相对应的生成的单词级语音-嘴部一致性分数来生成总分数。在一些方面，一个或多个处理器还被配置为基于合成音频剪辑的长度与视频剪辑的长度的比较来生成持续时间分数。在一些方面，一个或多个处理器还被配置为：处理视频剪辑以从视频剪辑中可见的说话者识别一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，视频剪辑还包括原始音频数据，并且其中一个或多个处理器还被配置为：处理原始音频数据以识别记录在原始音频数据中的由说话者说出的一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：处理视频剪辑的转录以识别一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：处理合成音频剪辑以识别在合成音频剪辑的合成语音中说出的一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：处理文本序列以识别一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：基于总分数满足预定标准来选择合成音频剪辑；将所述合成音频剪辑与所述视频剪辑组合以生成修改的视频；以及输出修改的视频。