技术新讯 > 乐器声学设备的制造及制作,分析技术 > 实时通信中生成具有统一混响的空间音频的系统和方法与流程 > 正文

实时通信中生成具有统一混响的空间音频的系统和方法与流程

国知局
2024-06-21 10:38:29

本发明涉及语音通信中的噪声抑制技术，具体涉及一种在实时通信中生成具有统一混响的空间音频的系统和方法，更具体涉及一种在实时虚拟现实通信中生成具有统一混响的空间音频的系统和方法。

背景技术：

1、科技的发展使得在互联网上进行实时音频通信以及视频和/或消息通信(real-time communication，rtc)成为可能。在rtc中，所有参与者都可以即时或以可忽略不计的传输延迟进行信息交互。rtc的其中一个重要应用是电话会议，如音频电话会议或视频电话会议。在电话会议中，参与者经常会使用耳麦(或称耳机)。双耳立体声技术使近端参与者接收到的语音信号的空间化成为可能。如本文所使用的，同一物理环境(例如，同一房间)中的两个参与者被称为彼此的近端参与者；否则，被称为彼此的远端参与者。此外，参与者本人的语音也被称为该参与者的近端语音。换言之，参与者本人也是自己的近端参与者。

2、空间化使得参与者可以用她/他希望的任何方式虚拟放置远端参与者。创建虚拟声音的传统解决方案是使用一对头相关传递函数(head-related transfer function,hrtf)对接收到的单声道语音信号进行滤波，该函数定义了声源和听者耳膜之间与方向相关的传递函数。此外，在双耳声音中添加混响(如，早期反射和晚期混响)以增强感知到的虚拟声音的的合理性和外化。

3、虚拟现实(virtual reality,vr)通信是rtc的一种形式。在vr场景中，参与者在同一个虚拟会议室中。因此语音信号的混响应该是相同的(也就是统一均匀的)。否则，身临其境的体验就会减弱。然而，这样的效果可能并不容易实现，因为参与者处于不同的物理环境中，而麦克风捕捉到的语音信号中已经包含了不同房间的混响。此外，由于说话者的声音包含其所处房间的混响，因此说话者不能感知到她/他自己的声音，就像她/他在一个虚拟会议室中讲话一样。如果说话者在说话时戴着耳机，耳机外壳会阻挡说话者自己声音在空气中传播的高频分量。因此声音的低频分量在耳膜处被增强，这就是所谓的闭塞效应。说话者自己的声音听起来就显得不自然。所以声音的高频分量不应该受到耳机外壳的影响。

4、因此，需要一种新的实时通信系统和方法，以在虚拟现实通信中生成并提供统一的混响。该实时通信系统和方法为同一虚拟会议室或不同虚拟会议室中的听众和说话者创造并增强了身临其境的体验。

技术实现思路

1、本发明基于各个实施例提供了一种由计算机实现的方法，用于在实时通信会话中生成统一混响的空间音频。该方法由电子通信设备中的实时通信软件应用程序执行，包括：从第一电子通信设备处获取第一音频信号流；去除第一音频信号流中的混响以生成第一干信号流；使用头相关传递函数对第一干信号流进行滤波，以为听者生成双耳声音的第一直达声部分；从第二电子通信设备处获取第二音频信号流；去除第二音频信号流中的混响以生成第二干信号流；通过头相关传递函数对第二干信号流进行滤波，以为听者生成双耳声音的第二直达声部分；将第一干信号流和第二干信号流相加，以生成相加后的干信号流；将相加后的干信号流与一组房间脉冲响应进行卷积运算，以生成双耳声音的混响部分；将双耳声音的第一直达声部分和第二直达声部分相加以生成左耳双耳声音的第一相加后的直达声部分；将双耳声音的第一直达声部分和第二直达声部分相加以生成右耳双耳声音的第二相加后的直达声部分；将左耳双耳声音的第一相加后的直达声部分与双耳声音的混响部分相加，以为听者的左耳生成第一音频信号；将右耳双耳声音的第二相加后的直达声部分与双耳声音的混响部分相加，以为听者的右耳生成第二音频信号。

2、在一种实施方案中，实时通信会话是指实时虚拟现实的通信会话。

3、在一种实施方案中，该组房间脉冲响应包括一对房间脉冲响应。

4、在一种实施方案中，该组房间脉冲响应中的每个房间脉冲响应是通过参考会议室测量而出或人工合成的。

5、在一种实施方案中，去除第一音频信号流中的混响以生成第一干信号流的步骤采用了去混响模型。

6、在一种实施方案中，去除第二音频信号流中的混响以生成第二干信号流的步骤也采用了去混响模型。

7、本发明提供了一种由计算机实现的方法，用于在实时通信会话中生成具有统一混响的空间音频，该方法由电子通信设备中的实时通信软件应用程序执行，包括：从第一电子通信设备处获取第一音频信号流；去除第一音频信号流中的混响以生成第一干信号流；使用头相关传递函数对第一干信号流进行滤波，以为听者生成左耳双耳声音的第一直达声部分；从第二电子通信设备处获取第二音频信号流；去除第二音频信号流中的混响以生成第二干信号流；通过头相关传递函数对第二干信号流进行滤波，以为听者生成右耳双耳声音的第二直达声部分；为对应于第一电子通信设备处的第一远端参与者生成第一早期反射；为对应于第二电子通信设备处的第二远端参与者生成第二早期反射；将第一干信号流和第二干信号流相加以生成相加后的干信号流；将相加后的干信号流与一组房间脉冲响应进行卷积运算，以生成双耳声音的混响部分；将第一直达声部分和第二直达声部分相加以生成左耳双耳声音的第一相加后的直达声部分；将第一直达声部分和第二直达声部分相加，以生成右耳双耳声音的第二相加后的直达声部分；将第一早期反射和第二早期反射相加，以为听者的左耳生成第一相加后的早期反射；将第一早期反射和第二早期反射相加，以为听者的右耳生成第二相加后的早期反射；将左耳双耳声音的第一相加后的直达声部分与左耳的第一相加后的早期反射相加，以为左耳生成第一具有早期反射的双耳声音的相加后的直达声部分；将右耳双耳声音第二相加后的直达声部分与右耳的第二相加后的早期反射相加，以为右耳生成第二具有早期反射的双耳声音的相加后的直达声部分；将第一具有早期反射的双耳声音的相加后的直达声部分与双耳声音的混响部分相加，以生成左耳的第一音频信号；将第二具有早期反射的双耳声音的相加后的直达声部分与双耳声音的混响部分相加，以生成右耳的第二音频信号。

8、在一种实施方案中，实时通信会话是指实时虚拟现实的通信会话。

9、在一种实施方案中，该组房间脉冲响应包括一对房间脉冲响应。

10、在一种实施方案中，该组房间脉冲响应中的每个房间脉冲响应是通过参考会议室测量而出或人工合成的。

11、在一种实施方案中，去除第一音频信号流中的混响以生成第一干信号流的步骤采用了去混响模型。

12、在一种实施方案中，去除第二音频信号流中的混响以生成第二干信号流的步骤也采用了去混响模型。

13、另外本发明还提供了一种由计算机实现的方法，用于在实时通信会话中为戴耳机用户生成具有统一混响的空间音频。该方法由电子通信设备中的实时通信软件应用程序执行，包括：从电子通信设备的音频输入接口获取用户讲话的音频信号流；去除音频信号流中的混响以生成干信号流；将干信号流与一组房间脉冲响应进行卷积运算，以生成双耳声音的混响部分；通过高通滤波器对双耳声音的混响部分进行滤波，进而形成高通滤波信号；通过口耳传递函数对高通滤波信号进行滤波，进而形成口耳传递函数滤波信号；通过第一组耳机补偿滤波器对口(左)耳传递函数滤波信号进行滤波，以为用户的左耳生成第一音频信号；通过第二组耳机补偿滤波器对口(右)耳传递函数滤波信号进行滤波，以为所述用户的右耳生成第二音频信号。

14、在一种实施方案中，实时通信会话是指实时虚拟现实的通信会话。

15、在一种实施方案中，该组房间脉冲响应包括一对房间脉冲响应。

16、在一种实施方案中，该组房间脉冲响应中的每个房间脉冲响应是通过参考会议室测量而出或人工合成的。

17、在一种实施方案中，去除第一音频信号流中的混响以生成第一干信号流的步骤采用了去混响模型。