技术新讯 > 乐器声学设备的制造及制作,分析技术 > 视频音频处理设备、视频音频处理方法和存储介质与流程 > 正文

视频音频处理设备、视频音频处理方法和存储介质与流程

国知局
2024-06-21 11:31:00

本技术涉及一种用于视频-音频处理的设备和方法以及一种程序，更具体地，涉及一种分别能够更简单、更精确地分离期望的对象声音的用于视频-音频处理的设备和方法以及程序。

背景技术：

1、近年来，对象音频技术已经用于电影、游戏等中，并且已经开发了可以处理对象音频的编码系统。例如，作为国际标准的动态图像专家组(mpeg)-h部分3：3d音频标准等称为关于对象音频编码的标准(例如，参考npl 1)。

2、这种编码系统与多声道立体音响系统(例如，过去的2声道立体音响系统或过去的5.1声道立体音响系统)一起可以将移动声源等作为独立的音频对象来处理，并且可以通过元数据的形式将与音频对象相关联的位置信息与音频对象的信号数据一起编码。通过采用这种处理，可以容易地执行在再现时对特定声源的处理，这在过去的编码系统中很难执行。具体地，例如，作为特定声源的处理，可以对每个音频对象执行音量调整、效果添加等。

3、如果在例如通过使用摄录像机、智能手机等拍摄动态图像时使用这种对象音频编码，则将作为拍摄目标的家族的声音记录为对象声音，并且将除了对象声音之外的声音记录为背景声音。结果，在拍摄之后、在再现时或在编辑时，可以独立操作家族的声音。

4、然而，在通过使用诸如摄录像机或智能手机等移动设备获取对象声音的情况下，就计算资源或用户界面的便利性而言，不容易自动确定什么应该记录为对象声音，什么应该记录为背景声音。

5、另外，迄今为止，已经提出了各种声源分离技术，作为分离对象声音的技术。例如，已经提出了通过使用多个麦克风和独立的主成分分析等来分离声源的技术(例如，参考ptl1)。

6、[引文列表]

7、[非专利文献]

8、[npl 1]

9、国际标准iso/iec23008-3第一版2015-10-15信息技术(异构环境中的高效编码和媒体传送)第3部分：3d音频

10、[专利文献]

11、[ptl 1]

12、日本专利公开号2010-233173

技术实现思路

1、[技术问题]

2、然而，这些声源分离技术中的每一种都自适应地将声源与来自麦克风的输入声音信号分离，并且在许多情况下，实际上包括拍摄目标人物的声音之外的声音。因此，难以简单并准确地分离想要的对象声音。

3、针对这种情况而提出本技术，并且能够更简单并且更精确地分离期望的对象声音。

4、[问题的解决方案]

5、本技术的一个方面的视频-音频处理设备具有：显示控制部，被配置为使得基于视频信号的视频对象被显示；对象选择部，被配置为从所述一个视频对象或者从多个视频对象之间选定预定的视频对象；以及提取部，被配置为将由所述对象选择部选定的视频对象的音频信号提取为音频对象信号。

6、所述提取部可以从音频信号中提取音频对象信号。

7、所述提取部可以从音频信号中提取所选定的视频对象的音频对象信号以外的信号，来作为背景声音信号。

8、所述对象选择部可以生成所选定的视频对象在空间上的位置的对象位置信息，并且所述提取部可以基于对象位置信息提取音频对象信号。

9、所述提取部可以通过使用对象位置信息的声源分离来提取音频对象信号。

10、所述提取部可以执行固定波束形成来作为声源分离。

11、视频-音频处理设备还可以具有视频对象识别部，被配置为基于视频信号来识别视频对象，并且所述显示控制部可以将基于视频对象的识别结果的图像与视频对象一起显示。

12、所述视频对象识别部可以从面部识别中识别视频对象。

13、所述显示控制部可以将框作为图像显示在视频对象的区域中。

14、所述对象选择部可以响应于用户的选择操作来选择视频对象。

15、所述对象选择部可以生成所选定的视频对象的元数据。

16、所述对象选择部可以生成指示作为元数据的所选定的视频对象在空间上的位置的对象位置信息。

17、所述对象选择部可以生成所选定的视频对象的处理优先级来作为元数据。

18、所述对象选择部可以生成指示所选定的视频对象的区域的扩展状态的扩展信息来作为元数据。

19、视频-音频处理设备还可以具有音频编码部，被配置为对音频对象信号和元数据进行编码。

20、视频-音频处理设备还可以具有：视频编码部，被配置为对视频信号进行编码；以及多路复用部，被配置为对通过编码视频信号而获得的视频比特流以及通过编码音频对象信号和元数据而获得的音频比特流进行多路复用。

21、视频-音频处理设备还可以具有图像拾取部，被配置为通过执行拍摄来获得视频信号。

22、还可以提供声音获取部，被配置为通过执行声音获取来获得音频信号。

23、本技术的一个方面的视频-音频处理方法或程序包括：显示控制步骤，使得基于视频信号的视频对象被显示；对象选择步骤，从所述一个视频对象或者从多个视频对象之间选定预定的视频对象；以及提取步骤，将由对象选择步骤选定的视频对象的音频信号提取为音频对象信号。

24、在本技术的一个方面，基于视频信号显示视频对象，从一个视频对象或者从多个视频对象之间选定预定的视频对象，并且将所选定的视频对象的音频信号提取为音频对象信号。

25、[发明的有利效果]

26、根据本技术的一个方面，可以更简单和准确地分离期望的对象声音。

27、应当注意，上述效果不一定是限制性的，并且本公开中描述的任何效果也是可用的。

技术特征：

1.一种视频音频处理设备，包括：

2.根据权利要求1所述的视频音频处理设备，其中，

3.根据权利要求2所述的视频音频处理设备，其中，

4.根据权利要求1所述的视频音频处理设备，其中，

5.根据权利要求4所述的视频音频处理设备，其中，

6.根据权利要求5所述的视频音频处理设备，其中，

7.根据权利要求1所述的视频音频处理设备，还包括视频对象识别部，被配置为基于所述视频信号来识别所述视频对象，其中，

8.根据权利要求1所述的视频音频处理设备，其中，

9.一种视频音频处理方法，包括：

10.一种存储程序的存储介质，计算机根据该程序执行包括以下步骤的处理：

技术总结本技术涉及视频音频处理设备、视频音频处理方法和存储介质，通过该视频声音处理设备、视频声音处理方法和程序，可以更容易地以更高的精度分离期望的对象声音。所述视频声音处理设备具备：显示控制单元，使得基于视频信号的视频对象被显示；对象选择单元，从一个视频对象或者从多个视频对象之间选定预定的视频对象；以及提取单元，将由所述对象选择单元选定的视频对象的音频信号提取为音频对象信号。本技术可应用于视频声音处理设备。技术研发人员：本间弘幸,山本优树受保护的技术使用者：索尼公司技术研发日：技术公布日：2024/2/29