技术新讯 > 乐器声学设备的制造及制作,分析技术 > 具有声源定向功能的音频编解码装置、方法及系统与流程 > 正文

具有声源定向功能的音频编解码装置、方法及系统与流程

国知局
2024-06-21 11:45:19

本技术涉及音频编解码领域，特别是涉及一种具有声源定向功能的音频编解码装置、方法及系统。

背景技术：

1、音频编解码系统是数字音频的核心，负责将模拟信号转换成数字信号以及进行数据压缩和解压，该系统对音质、数据量和处理效率具有重要影响，其主要过程包括模数转换(adc)和数模转换(dac)。在模数转换的过程中，模拟信号被采样、量化成数字信号，其采样率和量化深度决定音频质量。为了方便存储和传输，数字信号会被压缩，尽管技术发展减少了对压缩的需求，但在资源受限时仍然重要。在播放时，数模转换将数字信号还原为模拟信号，其性能如线性度、动态范围和信噪比直接关系到音质。高性能数模转换用于确保高保真转换，提供优质听感。音频编解码技术不仅应用于各类电子产品，还支持vr、ar等新技术提供沉浸式体验。

2、声源定向技术利用复杂声学模型和高级信号处理算法分析音频信号，精确识别声源的空间位置，以实现真实世界声音环境的听觉再现。在vr、ar和环境声音处理等应用中，声源定向技术有效地增强了音频的真实性和沉浸感，提升了音频内容的表现力和功能性。然而声源定向技术在实际应用中仍面临着若干挑战，这些挑战主要集中在声源定向精度、算法设计的复杂性和稳定性，以及时延控制方面。首先，声源的采样率越高，其定向的精度越高。然而受到现有的嵌入式设备的麦克风尺寸的限制，其采样率同样受到限制，从而影响声源定位的精度。其次，声源定向技术需要准确知道每个麦克风的坐标信息，不同的麦克风阵列排布要求设计不同的处理算法。由于目前声源定向的精度较低，每次应用于新的阵列配置时，都需要重新设计和调整算法。这不仅增加了工程应用的成本，也影响了系统的稳定性和可靠性。最后，声源定向处理的时延设置的过大，则会降低声源定向的精度，若设置的过小，则导致系统稳定性差。因此时延控制在系统稳定性、声源定位精度、算法匹配度之间的难以进行有效地平衡。

技术实现思路

1、鉴于以上所述现有技术的缺点，本技术的目的在于提供具有声源定向功能的音频编解码装置、方法及系统，用于解决声源定向技术中精度不高、算法复杂度高以及时延控制难以平衡的问题。

2、为实现上述目的及其他相关目的，本技术的第一方面提供一种具有声源定向功能的音频编解码装置，包括：信号采集单元，用于通过一对或多对音频采集设备采集近端音频模拟信号；每个音频采集设备采集其中一路近端音频模拟信号；模数转换单元，与所述信号采集单元电性连接；所述模数转换单元用于对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作，以生成对应的近端音频数字信号，并将所述近端音频数字信号输出至声源定向单元；声源定向单元，与所述模数转换单元电性连接；所述声源定向单元包括两个输入端和一个输出端，两个输入端分别输入近端音频数字信号和由控制接口发送的一对或多对音频采集设备的位置信息，输出端用于将声源定向单元得到的声源定向结果输出至控制接口；数模转换单元，用于接收数据接口发送的远端音频数字信号，对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。

3、于本技术的第一方面的一些实施例中，所述声源定向单元包括：语音活动检测模块：其中包括一个输入端和一个输出端；输入端与所述模数转换单元相连，输出端与综合信噪比计算模块相连；所述语音活动检测模块对接收到的近端音频数字信号进行语音活动检测，以生成语音活动判决结果，并将所述语音活动判决结果发送至综合信噪比计算模块；综合信噪比计算模块：其中包括两个输入端和一个输出端；两个输入端分别与所述模数转换单元和所述语音活动检测模块相连，输出端与定向判断模块相连；所述综合信噪比计算模块基于接收到的近端音频数字信号和所述语音活动判决结果计算综合信噪比，并将所述综合信噪比发送至所述定向判断模块；时延估计模块：其中包括一个输入端和一个输出端；输入端与所述模数转换单元相连，输出端与定向判断模块相连；所述时延估计模块基于接收到的近端音频数字信号进行时延估计操作，以生成时延估计结果，并将所述时延估计结果发送至定向判断模块；定向判断模块：其中包括三个输入端和一个输出端；三个输入端分别与所述综合信噪比计算模块、时延估计模块以及控制接口相连；所述定向判断模块基于接收到每对音频采集设备对应的所述综合信噪比、时延估计结果以及一对或多对音频采集设备的位置信息，进行声源定向操作，以生成声源定向结果，并将所述声源定向结果发送至控制接口。

4、于本技术的第一方面的一些实施例中，所述语音活动检测模块执行语音活动检测的过程包括：接收近端音频数字信号，并采用窗口函数对所述近端音频数字信号进行分段处理，以获得预设时间段内连续时间点的幅值集；基于预设时间段内连续时间点的幅值集计算接收到近端音频模拟信号的短时能量；若当前的短时能量高于阈值，则将当前时间点标记为检测到语音活动，并输出对应的语音活动判决结果；否则，将当前时间点标记为未检测到语音活动，并输出对应的语音活动判决结果；将所述语音活动判决结果发送至综合信噪比计算模块。

5、于本技术的第一方面的一些实施例中，所述综合信噪比计算模块执行综合信噪比计算的过程包括：基于接收到的语音活动判决结果和近端音频数字信号，计算每个通道的平均信号功率和平均噪声功率；基于每个通道的平均信号功率和平均噪声功率计算每个通道的信噪比；基于每个通道的信噪比计算近端音频模拟信号的综合信噪比，并将所述综合信噪比发送至所述定向判断模块。

6、于本技术的第一方面的一些实施例中，所述定向判断模块对每对音频采集设备所采集到的近端音频模拟信号执行声源定向的过程包括：基于每对近端音频模拟信号的时延估计结果和每对音频采集设备的位置信息差值进行空间角度估计，以生成每对音频采集设备的预估角度；根据每对近端音频模拟信号的综合信噪比设置其所对应的权重；基于每对音频采集设备的预估角度和以及其所对应的权重，通过加权平均的方式计算近端音频模拟信号的声源方向，以生成声源定向结果并将所述声源定向结果发送至控制接口。

7、于本技术的第一方面的一些实施例中，所述时延估计模块执行时延估计的过程包括：接收近端音频数字信号，将每对音频采集设备所采集到的数字信号输入至互相关函数中，以根据近端音频模拟信号到达每对音频采集设备的时间差对近端音频模拟信号进行时延估计，以生成时延估计结果并将所述时延估计结果发送至定向判断模块。

8、于本技术的第一方面的一些实施例中，所述数模转换单元包括：数模转换模块：用于将接收到的所述远端音频数字信号转换为远端音频信号的模拟信号；混音模块：用于将远端音频信号的数字信号与其他远端音频流的数字信号或者本地存储的数字音频流进行混音叠加操作，以生成数模中间信号；数据匹配模块：将所述数模中间信号以预设格式进行格式转换操作，以生成格式转换后的数模中间信号；数据缓存模块：将格式转换后的数模中间信号执行延时匹配及数据缓存操作。

9、为实现上述目的及其他相关目的，本技术的第二方面提供一种具有声源定向功能的音频编解码方法，应用于音频编解码器，包括：通过一对或多对音频采集设备采集近端音频模拟信号；每个音频采集设备采集其中一路近端音频模拟信号；对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作，以生成对应的近端音频数字信号；接收一对或多对音频采集设备的位置信息，基于所述位置信息对近端音频数字信号执行声源定向操作，以生成声源定向结果，并将所述声源定向结果和所述近端音频数字信号发送至主芯片；接收数据接口发送的远端音频数字信号，对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。

10、于本技术的第二方面的一些实施例中，对近端音频数字信号执行声源定向操作的过程包括：对近端音频数字信号执行语音活动检测以生成语音活动判决结果；基于所述近端音频数字信号和所述语音活动判决结果计算综合信噪比；对近端音频数字信号执行时延估计操作以生成时延估计结果；基于所述综合信噪比、所述综合信噪比、所述时延估计结果以及一对或多对音频采集设备的位置信息，进行声源定向操作以生成声源定向结果。

11、为实现上述目的及其他相关目的，本技术的第三方面提供一种具有声源定向功能的音频编解码系统，包括：主处理器以及所述具有声源定向功能的音频编解码装置。

12、如上所述，本技术的音频编解码领域的一种具有声源定向功能的音频编解码装置、方法及系统，具有以下有益效果：通过将声源定向功能设置于音频编解码内部，以及在声源定向模块中基于实时音频进行自动化权重分配及声源定向计算的方式，有效提高了声源定向精度、降低算法设计和应用成本、优化时延和稳定性、释放主处理器的算力压力的效果。

13、首先，本发明提供的声源定向功能的音频编解码装置为设置于音频编解码器内部，使得能够有效地对高采样频率音频进行利用，从而摆脱传统声源定向受到低采样率的限制而导致精度不佳的问题。本系统能够处理高达96khz或192khz的音频信号，大幅提高声源定向的精度。与传统的16khz或48khz采样率相比，这一显著的提升使得声源定向在复杂环境中的定位更为精确，误差率降低。在实际应用中，这意味着声音定位的精度能够达到更高标准，特别是在需要精确音源定位的场合(如专业音频制作、vr/ar应用等)，本发明能提供更为真实和准确的音频体验。其次，本发明有效降低了算法设计的复杂度，也减少了工程实施的成本。这种自适应算法不仅减少了人力资源的投入，也降低了对专业知识的依赖。最后，本发明优化了时延控制的稳定性，本发明能够根据实际需求优化声源定向处理的响应时间。相比传统解决方案，这种优化能显著提升用户体验，降低声音延迟和失真的风险。