技术新讯 > 信息存储应用技术 > 一种拾音装置及相关音频增强方法与流程 > 正文

一种拾音装置及相关音频增强方法与流程

国知局
2024-07-31 19:43:08

本技术涉及音频电子器件领域，尤其涉及一种拾音装置及相关音频增强方法。

背景技术：

1、随着电子设备变得越来越流行，在诸如机场、户外街道和交通场合，例如餐厅等嘈杂的环境中越来越多地使用它们。在电子设备对声音进行拾取的过程中，需要抑制噪声，得到清晰的特定的声音。例如，在视频拍摄领域，电子设备对声音进行拾取时，若需得到清晰的人声，则电子设备需要对声源位置做定位，以减弱或消除噪声，即将人声与噪声进行分离。

2、目前，常采用声波定位技术来确定目标声音位置，如基于两个麦克风，实现一个音频变焦系统。进而，音频缩放应用程序允许从目标声音的方向捕获和增强声音，同时衰减来自所有其他方向的干扰源。在该过程中，常基于波束形成技术来确定和增强目标声音，即波束形成可包括固定波束形成和自适应波束形成两类。固定波束形成包括延迟相加、超指向波束形成等，主要是利用声波到达传感器的延迟信息差，进行阵列处理；自适应波束形成，需要对方位角和环境噪声做实时估计。但实际应用过程中发现，在自适应波束形成中，若噪声和目标方位估计不准，则会损伤目标声音。此外，受电子设备(如手机)尺寸限制(通常手机麦克风距离相距小于0.2m)，难以达到预期的波束形成的效果。综上，由于通过声波定位技术确定的目标声音的位置精度较低，从而导致电子设备拾音质量下降，声音含糊不清。

3、因此，如何提供一种拾音装置及相关音频增强方法，以提升拾音性能和质量，是亟待解决的问题。

技术实现思路

1、本技术实施例所要解决的技术问题在于，如何提供一种拾音装置及相关音频增强方法，以提升拾音性能和质量。

2、第一方面，本技术实施案例提供一种拾音装置，其特征在于，所述拾音装置包括视觉处理单元和音频处理单元，且所述视觉处理单元与所述音频处理单元通过总线连接，其中，所述视觉处理单元，用于：根据目标对象的图像数据和深度数据，确定所述目标对象相对于所述拾音装置的位置信息，所述深度数据包括所述目标对象与所述拾音装置之间的距离信息；向所述音频处理单元发送所述位置信息；所述音频处理单元，用于：基于所述目标对象的所述位置信息确定所述目标对象的第一音频信号。

3、在本发明实施例中，通过视觉处理单元获取目标对象的图像数据以及深度数据，以确定目标对象的三维空间位置，然后音频处理单元通过视觉处理单元与音频处理单元之间的总线接收视觉处理单元发送的三维空间位置，进而音频处理单元可以基于该三维空间位置确定目标对象的音频信号，避免了现有技术中仅基于音频信号确定的空间位置与目标对象的实际位置误差较大，导致音频渲染效果差的问题，从而提升拾音装置的拾音性能及质量。在另一种现有技术中，拾音装置需要先获取目标对象的视频数据以及对应的音频信号，然后由处理器对视频数据进行分析处理，确定目标对象的位置信息。进一步地，处理器基于位置信息对音频信号进行渲染。但在该现有技术中，需要提前获取目标对象的视频数据和音频信号，然后由处理器统一地处理，若视频数据和音频信号的数据量较大时，处理器的音频渲染速度会变慢，在一些对实时性要求较高的场景中，处理器无法快速进行音频渲染，降低了拾音装置的拾音性能，用户体验较差。综上，在本技术中，视觉处理单元基于目标对象的图像信息以及深度信息确定的三维空间位置与目标对象的实际位置误差较小，且视觉处理单元可通过视觉处理单元和音频处理单元之间的总线及时将目标对象的三维空间位置发送给音频处理单元，以便音频处理单元能够基于目标对象的三维空间位置进行拾音，避免了现有技术中需要提前获取目标对象的视频数据和音频信号，然后由处理器统一地处理，若视频数据和音频信号的数据量较大时，导致处理器的音频渲染速度变慢的问题，从而提升拾音装置的拾音性能及质量。

4、在一种可能的实现方式中，所述拾音装置还包括n个麦克风，n为大于1的整数，所述音频处理单元，还用于：通过所述n个麦克风采集n个原始音频信号；基于所述位置信息确定所述n个原始音频信号之间的相位差；基于所述相位差对所述n个原始音频信号进行处理生成所述第一音频信号。

5、在本发明实施例中，拾音装置中可以包括多个麦克风，以使得音频处理单元能够基于每个麦克风都获取到一路目标对象的原始音频信号，然后基于目标对象的位置信息(即三维空间位置)可以确定出每路原始音频信号之间的相位差。进一步地，基于相位差能够对多个原始音频信号进行处理得到目标对象的音频信号。由于在本技术中，视觉处理单元基于目标对象的图像信息以及深度信息确定的三维空间位置与目标对象的实际位置误差较小，避免了现有技术中仅基于音频信号确定的空间位置与目标对象的实际位置误差较大，导致音频渲染效果差的问题，从而提升拾音装置的拾音性能及质量。

6、在一种可能的实现方式中，所述视觉处理单元，还用于：获取视频信息，基于所述视频信息的内容信息确定所述目标对象，所述内容信息包括所述视频信息内的物体信息，场景信息中的一种或多种；根据所述视频信息获取所述目标对象的所述图像数据，所述图像数据包括所述目标对象在所述视频信息中的坐标信息。

7、在本发明实施例中，视频信息可以理解为在预设时间段内通过摄像头获取到的一帧或多帧图像；内容信息可以包括但不限于视频信息内的物体信息和场景信息，如在视频拍摄场景中，物体信息可以包括人物、动物、植物等，场景信息可以包括公园、公路、室内等。视觉处理单元可以基于视频信息所对应的内容信息自动从多个物体中选择一个作为目标对象，例如可以将多个物体中正在说话的人物确定为目标对象。进一步地，视觉处理单元可以根据视频信息获取目标对象的图像数据，即图像数据可以包括但不限于目标对象在视频信息中的坐标信息，然后视觉处理单元能够基于目标对象的坐标信息以及深度信息精准地确定目标对象的三维空间位置，以便后续音频处理单元能够基于目标对象的三维空间位置进行拾音(如对目标对象的声音进行增强)，从而提升拾音装置的拾音性能及质量。

8、在一种可能的实现方式中，所述视觉处理单元，还用于：基于预设算法对所述视频信息进行处理，生成所述内容信息；其中，所述预设算法包括运动检测算法、人脸检测算法、唇动检测算法中的一种或多种。

9、在本发明实施例中，视觉处理单元中可以内置有视觉处理ai引擎，当视觉处理单元获取到视频信息后，可以通过视觉处理ai引擎基于预设算法对视频信息进行分析处理，生产视频信息的内容信息，其中预设算法包括但不限于运动检测(背景建模)技术、人脸检测技术、唇动检测技术等。进一步地，视觉处理单元可以基于生成的内容信息确定目标对象；若视觉处理单元向音频处理单元发送内容信息，则音频处理单元可以基于内容信息对目标对象发出的声音进行放大，从而提升拾音装置的拾音性能及质量。

10、在一种可能的实现方式中，所述音频处理单元，还用于：通过所述总线接收所述视觉处理单元发送的所述内容信息，并基于所述内容信息确定所述目标对象的发声频率范围；对所述n个原始音频信号中每个所述原始音频信号在所述发声频率范围内的音频段进行增强。

11、在本发明实施例中，当音频处理单元接收到视觉处理单元发送的内容信息后，可以基于内容信息识别出目标对象是什么物种，进而可以确定该物种在一般情况下的发声频率范围。当音频处理单元通过麦克风采集了目标对象的原始音频信号后，可以将在目标对象的发声频率范围内的音频进行增强，从而实现突出目标对象声音大小的效果，提升拾音装置的拾音性能和质量。

12、在一种可能的实现方式中，所述视觉处理单元，还用于：获取视频信息，响应于目标用户针对所述视频信息的目标操作，将所述目标操作对应的物体确定为所述目标对象；根据所述视频信息获取所述目标对象的所述图像数据，所述图像数据包括所述目标对象在所述视频信息中的坐标信息。

13、在本发明实施例中，视频信息可以理解为在预设时间段内通过摄像头获取到的一帧或多帧图像。视觉处理单元，检测到目标用户针对视频信息的目标操作后，会响应于该目标操作，将该目标操作对应的物体确定为目标对象。进一步地，视觉处理单元可以根据视频信息获取目标对象的图像数据，即图像数据可以包括但不限于目标对象在视频信息中的坐标信息，然后视觉处理单元能够基于目标对象的坐标信息以及深度信息精准地确定目标对象的三维空间位置，以便后续音频处理单元能够基于目标对象的三维空间位置进行拾音(如对目标对象的声音进行增强)，从而提升拾音装置的拾音性能及质量。

14、在一种可能的实现方式中，所述视觉处理单元，还用于：通过传感器获取所述深度数据，所述传感器为单目摄像头，双目摄像头，深度传感器中的一种或多种。

15、在本发明实施例中，在拾音装置上还可以设置深度传感器，以通过深度传感器获取到目标对象相对于拾音装置的深度数据；或者在拾音装置上设置双目摄像头，以基于双目摄像头得到的视差信息确定目标对象相对于拾音装置的深度数据。进一步地，视觉处理单元能够基于目标对象的图像数据以及深度数据精准地确定目标对象的三维空间位置，以便后续音频处理单元能够基于目标对象的三维空间位置进行拾音(如对目标对象的声音进行增强)，从而提升拾音装置的拾音性能及质量。

16、第二方面，本技术实施案例提供一种音频增强方法，其特征在于，应用于拾音装置，所述拾音装置包括视觉处理单元和音频处理单元，且所述视觉处理单元与所述音频处理单元通过总线连接，所述方法包括：通过所述视觉处理单元，根据目标对象的图像数据和深度数据，确定所述目标对象相对于所述拾音装置的位置信息，所述深度数据包括所述目标对象与所述拾音装置之间的距离信息；通过所述视觉处理单元，基于所述总线向所述音频处理单元发送所述位置信息；通过所述音频处理单元，根据所述目标对象的所述位置信息确定所述目标对象的第一音频信号。

17、在一种可能的实现方式中，所述拾音装置还包括n个麦克风，n为大于1的整数，所述方法还包括：通过所述音频处理单元，基于所述n个麦克风采集n个原始音频信号；基于所述位置信息确定所述n个原始音频信号之间的相位差；基于所述相位差对所述n个原始音频信号进行处理生成所述第一音频信号。

18、在一种可能的实现方式中，所述方法还包括：通过所述视觉处理单元，获取视频信息，基于所述视频信息的内容信息确定所述目标对象，所述内容信息包括所述视频信息内的物体信息，场景信息中的一种或多种；根据所述视频信息获取所述目标对象的所述图像数据，所述图像数据包括所述目标对象在所述视频信息中的坐标信息。

19、在一种可能的实现方式中，所述方法还包括：通过所述视觉处理单元，基于预设算法对所述视频信息进行处理，生成所述内容信息；其中，所述预设算法包括运动检测算法、人脸检测算法、唇动检测算法中的一种或多种。

20、在一种可能的实现方式中，所述方法还包括：通过所述音频处理单元，基于所述总线接收所述视觉处理单元发送的所述内容信息，并基于所述内容信息确定所述目标对象的发声频率范围；对所述n个原始音频信号中每个所述原始音频信号在所述发声频率范围内的音频段进行增强。

21、在一种可能的实现方式中，所述方法还包括：通过所述视觉处理单元，获取视频信息，响应于目标用户针对所述视频信息的目标操作，将所述目标操作对应的物体确定为所述目标对象；根据所述视频信息获取所述目标对象的所述图像数据，所述图像数据包括所述目标对象在所述视频信息中的坐标信息。

22、在一种可能的实现方式中，所述方法还包括：通过所述视觉处理单元，通过传感器获取所述深度数据，所述传感器为单目摄像头，双目摄像头，深度传感器中的一种或多种。

23、第三方面，本技术提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第二方面任意一项所述的方法。

24、第四方面，本技术提供了一种芯片系统，该芯片系统包括处理器，用于支持电子设备实现上述第二方面中所涉及的功能，例如，生成或处理上述音频增强方法中所涉及的信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存电子设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

25、第五方面，本技术提供一种计算机程序，其特征在于，所述计算机程序包括指令，当所述计算机程序被计算机执行时，使得所述计算机执行上述第二方面中任意一项所述的方法。