技术新讯 > 计算推算,计数设备的制造及其应用技术 > 视频处理方法、装置、电子设备及存储介质与流程 > 正文

视频处理方法、装置、电子设备及存储介质与流程

国知局
2024-10-21 14:57:52

本技术涉及计算机，特别涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术：

1、随着元宇宙、虚拟人等领域的快速发展，在很多应用场景尤其是人机交互场中，能够准确对人的情绪状态进行描述变得越来越重要。人像视频描述，指根据给定的说话人视频片段，自动为该视频生成情感相关的文本描述。

2、现有技术中，对人像视频进行文本描述时，主要通过人工来对视频进行描述，如通过各种数据众包平台，将任务下发到各众包标注员，以视频标注的方式对视频进行文本描述。

3、但由于现有的文本描述方法主要依赖于各众包标注员，因此存在描述方式费时费力，且不同人对情感感知存在主观差异性，因此，也将存在文本描述一致性较差的问题。

技术实现思路

1、本技术的目的在于，针对上述现有技术中的不足，提供一种视频处理方法、装置、电子设备及存储介质，可以提高视频描述效率，且还可以保证描述结果的一致性。

2、为实现上述目的，本技术实施例采用的技术方案如下：

3、第一方面，本发明提供一种视频处理方法，包括：

4、获取目标视频中各帧视频的情绪识别标签，其中，所述各帧视频中包括目标对象的目标面部；

5、获取所述目标视频中目标对象的目标面部运动描述信息，所述目标面部运动描述信息包括：至少一种目标面部单元的名称标识、各所述目标面部单元的动作类型标签以及动作幅度标签；

6、根据各帧视频的情绪识别标签和所述目标面部运动描述信息，确定目标视频中目标对象的视频描述文本。

7、在可选的实施方式中，所述获取所述目标视频中目标对象的目标面部运动描述信息，包括：

8、根据至少一个面部运动单元检测器获取各帧视频中各面部单元的激活强度值；

9、对各帧视频中同一面部单元的激活强度值进行求和取均值计算，确定所述目标视频针对所述同一面部单元的目标激活强度值；

10、根据所述目标视频针对所述同一面部单元的目标激活强度值，确定各目标面部单元的动作幅度标签。

11、在可选的实施方式中，所述根据所述目标视频针对所述同一面部单元的激活强度值，确定各目标面部单元的动作幅度标签，包括：

12、根据所述目标视频针对所述同一面部单元的目标激活强度值和预设激活强度阈值，确定各目标面部单元的动作幅度标签；

13、其中，各面部单元对应至少一个预设激活强度阈值，各所述预设激活强度阈值对应不同的动作幅度标签。

14、在可选的实施方式中，所述根据各帧视频的情绪识别标签和目标面部运动描述，确定目标视频中目标对象的视频描述文本，包括：

15、基于各帧视频的情绪识别标签和目标面部运动描述，通过第一目标预设范式获取目标视频中目标对象的视频描述文本，其中，所述第一目标预设范式包括：第一待填充字段和第一固定字段，所述第一待填充字段包括：第一待填充情绪标签字段和第一待填充面部运动描述字段；所述第一固定字段包括：第一感官动作关键字和第一伴随状语关键字。

16、在可选的实施方式中，所述根据各帧视频的情绪识别标签和目标面部运动描述信息，确定目标视频中目标对象的视频描述文本，包括：

17、获取目标视频中目标对象的性别标签和/或年龄标签；

18、根据各帧视频的情绪识别标签、目标面部运动描述信息以及性别标签和/或年龄标签，确定目标视频中目标对象的视频描述文本。

19、在可选的实施方式中，所述根据各帧视频的情绪识别标签、目标面部运动描述信息以及性别标签和/或年龄标签，确定目标视频中目标对象的视频描述文本，包括：

20、基于各帧视频的情绪识别标签、目标面部运动描述信息以及性别标签和/或年龄标签，通过第二目标预设范式获取目标视频中目标对象的视频描述文本，其中，所述第二目标预设范式包括：第二待填充字段和第二固定字段，所述第二待填充字段包括：待填充的目标对象的性别和/或年龄描述字段、第二待填充情绪标签字段以及第二待填充面部运动描述字段；所述第二固定字段包括：第二感官动作关键字和第二伴随状语关键字。

21、在可选的实施方式中，不同的面部运动单元检测器用于检测不同的面部单元，或者，不同的面部运动单元检测器用于检测同一面部单元的不同动作类型。

22、在可选的实施方式中，所述根据各帧视频的情绪识别标签和目标面部运动描述信息，确定目标视频中目标对象的视频描述文本，包括：

23、根据各帧视频的情绪识别标签，基于投票机制确定目标视频对应的目标情绪标签；

24、根据所述目标视频对应的目标情绪标签和目标面部运动描述信息，确定目标视频中目标对象的视频描述文本。

25、第二方面，本发明提供一种视频处理装置，包括：

26、第一获取模块，用于获取目标视频中各帧视频的情绪识别标签，其中，所述各帧视频中包括目标对象的目标面部；

27、第二获取模块，用于获取所述目标视频中目标对象的目标面部运动描述信息，所述目标面部运动描述信息包括：至少一种面部单元的名称标识、各所述面部单元的动作类型标签以及动作幅度标签；

28、确定模块，用于根据各帧视频的情绪识别标签和目标面部运动描述信息，确定目标视频中目标对象的视频描述文本。

29、在可选的实施方式中，所述第二获取模块，具体用于根据至少一个面部运动单元检测器获取各帧视频中各面部单元的激活强度值；

30、对各帧视频中同一面部单元的激活强度值进行求和取均值计算，确定所述目标视频针对所述同一面部单元的目标激活强度值；

31、根据所述目标视频针对所述同一面部单元的目标激活强度值，确定各目标面部单元的动作幅度标签。

32、在可选的实施方式中，所述第二获取模块，具体用于根据所述目标视频针对所述同一面部单元的目标激活强度值和预设激活强度阈值，确定各目标面部单元的动作幅度标签；

33、其中，各面部单元对应至少一个预设激活强度阈值，各所述预设激活强度阈值对应不同的动作幅度标签。

34、在可选的实施方式中，所述确定模块，具体用于基于各帧视频的情绪识别标签和目标面部运动描述信息，通过第一目标预设范式获取目标视频中目标对象的视频描述文本，其中，所述第一目标预设范式包括：第一待填充字段和第一固定字段，所述第一待填充字段包括：第一待填充情绪标签字段和第一待填充面部运动描述字段；所述第一固定字段包括：第一感官动作关键字和第一伴随状语关键字。

35、在可选的实施方式中，所述确定模块，具体用于获取目标视频中目标对象的性别标签和/或年龄标签；

36、根据各帧视频的情绪识别标签、目标面部运动描述信息以及性别标签和/或年龄标签，确定目标视频中目标对象的视频描述文本。

37、在可选的实施方式中，所述确定模块，具体用于基于各帧视频的情绪识别标签、目标面部运动描述信息以及性别标签和/或年龄标签，通过第二目标预设范式获取目标视频中目标对象的视频描述文本，其中，所述第二目标预设范式包括：第二待填充字段和第二固定字段，所述第二待填充字段包括：待填充的目标对象的性别和/或年龄描述字段、第二待填充情绪标签字段以及第二待填充面部运动描述字段；所述第二固定字段包括：第二感官动作关键字和第二伴随状语关键字。

38、在可选的实施方式中，不同的面部运动单元检测器用于检测不同的面部单元，或者，不同的面部运动单元检测器用于检测同一面部单元的不同动作类型。

39、在可选的实施方式中，所述确定模块，具体用于根据各帧视频的情绪识别标签，基于投票机制确定目标视频对应的目标情绪标签；

40、根据所述目标视频对应的目标情绪标签和目标面部运动描述信息，确定目标视频中目标对象的视频描述文本。

41、第三方面，本发明提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如前述实施方式任一所述视频处理方法的步骤。

42、第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如前述实施方式任一所述视频处理方法的步骤。

43、本技术的有益效果是：

44、本技术实施例提供的一种视频处理方法、装置、电子设备及存储介质，包括：获取目标视频中各帧视频的情绪识别标签，其中，各帧视频中包括目标对象的目标面部；获取目标视频中目标对象的目标面部运动描述信息，目标面部运动描述信息包括：至少一种目标面部单元的名称标识、各目标面部单元的动作类型标签以及动作幅度标签；根据各帧视频的情绪识别标签和目标面部运动描述信息，确定目标视频中目标对象的视频描述文本，实现了可以结合目标对象的面部运动情况和情绪状态自动化生成目标视频中目标对象的视频描述文本，相较于现有技术来说，无需依赖各众包标注员，可以提高描述效率，此外，该描述过程可以基于统一的描述标准完成，因此，可以保证描述结果的一致性。