技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于生成口形的电子装置及其操作方法与流程 > 正文

用于生成口形的电子装置及其操作方法与流程

国知局
2024-06-21 11:32:31

本公开的各种实施例涉及一种用于生成口形的电子装置及其操作方法，并且更具体地，涉及一种用于生成与语音数据相应的口形的电子装置及其操作方法。

背景技术：

1、人工智能技术应用于各种领域。例如，已经开发了用于生成与语音数据相应的口形的人工智能模型。华盛顿大学的保罗g.艾伦(paul g.allen)研究小组开发了用于将语音数据转换为逼真的唇形同步视频的人工智能模型。可由人工智能模型生成用于说出语音数据的口形，并且可将生成的口形与现有图像的头部合成。因此，在视频中，人物通过与语音数据相应的口形说出输入数据。

2、例如，当语音数据被输入到基于递归神经网络(rnn)的人工智能模型中时，可生成指示口形(或表达口形)的稀疏形状。可基于稀疏形状生成口形纹理，并且可将相应的口形纹理与包括在目标视频中的图像中的每一个合成。另外，除了基于rnn的人工智能模型之外，还研究了使用基于各种人工神经网络的人工智能模型的口形生成技术。

技术实现思路

1、技术问题

2、如上所述，为了生成更逼真的口形，需要适当地训练人工模型(例如，基于rnn的人工智能模型)。当没有执行适当的训练时，可生成不自然的口形。特别地，已知人们对不自然的嘴部非常敏感，并且例如，当不自然地渲染牙齿或者颌部在不适当的时间移动时，可容易地识别出视频为假。然而，即使使用多条训练数据，对于所有情况，生成完整的合成图像的可能性也可能很低。此外，为了生成现有的口形，仅应用和/或运行一个人工智能模型。因此，即使当由于不完全训练而生成不自然的口形时，也不能修改相应的视频，或者应当使用许多资源来进行修改。这是因为仅使用一个口形生成模型而造成的。

3、根据各种实施例的电子装置及其操作方法可从一个语音数据生成多个口形候选，并生成包括从多个口形候选中选择的口形的嘴部的图像。

4、技术方案

5、根据本公开的一方面，一种电子装置包括至少一个处理器和至少一个存储器，其中，所述至少一个存储器存储可由至少一个处理器运行的指令并且可操作地连接到所述至少一个处理器，其中，所述至少一个处理器被配置为：获取将与至少一个第一图像合成的语音数据，通过使用所述语音数据生成多个口形候选，在所述多个口形候选之中选择口形候选，基于选择的口形候选和所述至少一个第一图像中的每一个第一图像的至少部分来生成至少一个第二图像，以及通过将至少一个超分辨率模型应用于所述至少一个第二图像来生成至少一个第三图像。

6、根据本公开的另一方面，提供了一种存储至少一个指令的非暂时性计算机可读存储介质。当指令被运行时，至少一个指令可促使至少一个处理器进行以下操作：获取将与至少一个第一图像合成的语音数据，通过使用所述语音数据生成多个口形候选，在多个口形候选之中选择口形候选，基于选择的口形候选和至少一个第一图像中的每一个第一图像的至少部分来生成至少一个第二图像，以及通过将至少一个超分辨率模型应用于所述至少一个第二图像来生成至少一个第三图像。

7、根据本公开的一方面，一种电子装置包括：至少一个处理器；显示模块，可操作地连接到所述至少一个处理器；以及至少一个存储器，存储可由处理器运行的至少一个指令并且可操作地连接到至少一个处理器，其中，所述至少一个处理器被配置为：获取将与至少一个第一图像合成的语音数据，在显示模块上显示使用所述语音数据生成的多个口形候选，识别对在显示模块上显示的所述多个口形候选之中的第一口形候选的选择，以及通过使用第一口形候选和至少一个第一图像中的每一个第一图像的至少部分在显示模块上显示包括第一口形候选的至少一个第二图像。

8、有益效果

9、根据各种实施例，可提供一种电子装置及其操作方法，其能够从一个语音数据生成多个口形候选并且生成包括从多个口形候选中选择的口形候选的图像。因此，与基于一个人工智能模型生成一个口形的传统技术不同，可生成更自然的口形。

技术特征：

1.一种电子装置，包括：

2.根据权利要求1所述的电子装置，其中，所述至少一个处理器还被配置为：通过对所述语音数据执行至少一个模拟处理来生成至少一个处理的语音数据，将所述语音数据和所述至少一个处理的语音数据输入到口形生成模型中，并且从所述口形生成模型生成多个输出值作为所述多个口形候选。

3.根据权利要求2所述的电子装置，其中，所述至少一个模拟处理包括以下中的至少一个：所述语音数据的振幅的增加、所述语音数据的振幅的减小、所述语音数据的再现速度的增加、所述语音数据的再现速度的减小、向所述语音数据添加第一噪声、从所述语音数据抑制第二噪声、从所述语音数据分离第一背景声音、或者向所述语音数据添加第二背景声音。

4.根据权利要求1所述的电子装置，其中，所述至少一个处理器还被配置为：将所述语音数据输入到多个口形生成模型中，并且从所述多个口形生成模型生成多个输出值作为所述多个口形候选。

5.根据权利要求1所述的电子装置，其中，所述至少一个处理器还被配置为：提供能够选择所述多个口形候选中的一个口形候选的用户界面，并且基于通过所述用户界面进行的用户输入来选择所述多个口形候选中的一个口形候选。

6.根据权利要求5所述的电子装置，其中，所述用户界面在再现所述多个口形候选中的至少一些口形候选或包括所述多个口形候选中的至少一些口型候选中的每一个口形候选的面部区域中的至少一些区域的同时，提供输出与所述语音数据相应的语音的功能。

7.根据权利要求1所述的电子装置，其中，所述至少一个处理器还被配置为：提供能够选择合成所述语音数据的时间段的用户界面，并且基于通过所述用户界面进行的用户输入来识别与合成所述语音数据的所述时间段相应的所述至少一个第一图像。

8.根据权利要求1所述的电子装置，其中，所述至少一个处理器还被配置为：将所述多个口形候选中的每一个口形候选输入到评估模型中，并且基于从所述评估模型输出的多个得分来选择所述多个口形候选中的一个口形候选。

9.根据权利要求1所述的电子装置，其中，所述至少一个处理器还被配置为：将所述至少一个第二图像中的每一个第二图像划分为与嘴部相应的至少一个第一区域和包括除所述第一区域之外的其余区域的至少一个第二区域，通过将所述至少一个第一区域应用于专用于所述至少一个第一区域的第一超分辨率模型来生成至少一个第一高分辨率区域，通过将所述至少一个第二区域应用于专用于所述至少一个第一区域的第二超分辨率模型来生成至少一个第二高分辨率区域，以及通过分别将所述至少一个第一高分辨率区域与所述至少一个第二高分辨率区域合成来生成所述至少一个第三图像。

10.根据权利要求1所述的电子装置，其中，所述处理器还被配置为：通过将所述至少一个第三图像中的至少一些第三图像分别与所述至少一个第一图像合成，生成至少一个完整合成的图像。

11.根据权利要求10所述的电子装置，其中，所述处理器还被配置为：对所述至少一个第三图像中的每一个第三图像执行分割，基于分割的结果识别所述至少一个第三图像中的每一个第三图像的至少一个待合成的区域，并且通过分别将所述至少一个待合成的区域与所述至少一个第一图像合成来生成所述至少一个完整合成的图像。

12.根据权利要求1所述的电子装置，其中，所述处理器还被配置为：基于通过所述电子装置的麦克风接收的语音来生成所述语音数据，或者将文本转换为所述语音数据。

13.一种非暂时性计算机可读存储介质，存储至少一个指令，其中，所述至少一个指令促使至少一个处理器进行以下操作：

14.一种电子装置，包括：

技术总结一种电子装置包括至少一个处理器和至少一个存储器，其中，所述至少一个存储器存储可由所述至少一个处理器运行的指令并且可操作地连接到所述至少一个处理器，其中，所述至少一个处理器可获取语音数据以便将所述语音数据与至少一个第一图像组合，通过使用所述语音数据生成多个口形候选，从多个口形候选之中选择口形候选，基于选择的口形候选和一个或更多个第一图像中的每一个第一图像的至少部分生成包括选择的口形的至少一个第二图像，并且通过将至少一个超分辨率模型应用于所述至少一个第二图像来生成至少一个第三图像。技术研发人员：金周荣,尹鋕爀,丁宣荣,郑骏植,郑海冈受保护的技术使用者：三星电子株式会社技术研发日：技术公布日：2024/3/4