技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音处理方法及相关系统、存储介质与流程  >  正文

声音处理方法及相关系统、存储介质与流程

  • 国知局
  • 2024-06-21 10:39:13

本技术涉及拾音,尤其涉及一种声音处理方法及相关系统、存储介质。

背景技术:

1、伴随着技术进步,线上远程会议和教学愈发受到关注,其可大幅降低不同地域间的沟通成本及实现优质资源共享。其中,拾音是协作会议系统和远程教学系统中不可或缺的模块。然而,实际场景所面临的声学环境复杂。比如,说话人可能处于半开放型会议室中或者教室中。在这类场景中,说话人往往处于半开放型空间中的部分区域(例如教室讲台等),该空间中可能存在各类干扰、噪声。此时,清晰、准确地拾取目标说话人的语音,且屏蔽干扰和噪声是一个很有挑战同时也是制约远程会议/教学体验的瓶颈问题。

技术实现思路

1、本技术公开了一种声音处理方法及相关系统、存储介质,可以解决干扰和噪声环境下仅拾取目标说话人的语音的问题,从而避免出现拾取的目标说话人的语音听不清的情况,大幅提升远程开会或教学的体验。

2、第一方面,本技术实施例提供一种声音处理方法。该方法包括:终端处理单元确定第一音幕范围。然后,终端处理单元根据该第一音幕范围确定第一拾音区域和第二拾音区域,以使得由该第一拾音区域和该第二拾音区域构成的第一目标拾音区域与该第一音幕范围重叠。其中,该第一拾音区域是第一麦克风阵列在设置第一波束后的声音采集区域。该第二拾音区域是第二麦克风阵列在设置第二波束后的声音采集区域。终端处理单元根据第一声音信号和第二声音信号得到第一目标声音信号。该第一声音信号是从该第一拾音区域中采集到。且该第一声音信号包含第一发言人的声音信号和第一噪声信号。该第二声音信号是从该第二拾音区域中采集到。且该第二声音信号包含该第一噪声信号。该第一目标声音信号包含该第一发言人的声音信号且不包含该第一噪声信号。

3、在上述方案中,通过对从第一拾音区域采集的第一声音信号和从第二拾音区域采集的第二声音信号进行处理,得到位于第一目标拾音区域的、包含第一发言人(例如,目标说话人)的声音信号而不包含噪声信号的第一目标信号;并且,由于第一目标拾音区域是由根据第一音幕范围确定的第一拾音区域和第二拾音区域构成的、且与该第一音幕范围重叠的区域,因此,本方案可以实现仅拾取该第一音幕范围中的第一发言人的声音信号,而不拾取其他噪声信号的功能。也就是说,本方案可以解决干扰和噪声环境下仅拾取目标说话人的语音的问题,从而避免出现拾取的目标说话人的语音听不清的情况,大幅提升远程开会或教学的体验。

4、该第一音幕范围,可以理解为即想要拾取的包含第一发言人的声音的封闭区域。

5、该第一音幕范围可以是任意形状的封闭区域,例如可以是三角形、四边形等多边形,本方案对此不作严格限制。其中,尽管实际空间为三维,但本方案中仅根据平面投影划分拾音区域/音幕范围(区域),不严格限定声源高度。可选的,在音幕范围内且位于正常高度范围(例如十几厘米到两米间等)内的声源均属于该音幕范围内,其均需要被有效拾取。

6、在一种可能的实现方式中,该第一拾音区域和第二拾音区域具有重叠区域。该重叠区域的声音信号包含该第一噪声信号。该第一目标拾音区域为该第一拾音区域去除该重叠区域后的区域。

7、在一种可能的实现方式中,所述根据第一声音信号和第二声音信号得到第一目标声音信号,包括:将第一声音信号和第二声音信号中的重复信号从第一声音信号中消除,以得到该第一目标声音信号。

8、例如,采用人工智能(artificial intelligence,ai)算法进行抵消处理来实现。该ai算法可以是将所述第一声音信号和所述第二声音信号中的重复信号(即第一噪声信号)从所述第一声音信号中消除,即只保留第一声音信号中与第二声音信号不相同的声音信号,以得到所述第一目标声音信号。需要说明的是,由于第一目标拾音区域与第一音幕范围重叠,第一音幕范围是想要拾取的第一发言人的声音信号的区域。因此,上述得到的第一目标声音信号,也即是位于第一目标拾音区域的信号。

9、上述仅为一种示例,其还可以采用其他处理以得到第一目标声音信号,例如也可以通过谱减法(比较及跟踪两路波束所接收的声音信号的频谱特征,从第一声音信号的声音频谱中剔除第一声音信号的频谱分量)等传统信号处理算法实现。

10、该示例中,通过将第一声音信号和第二声音信号中的重复信号如噪声信号从第一声音信号中消除,进而仅保留第一发言人的声音信号,可以实现仅拾取该第一音幕范围中的第一发言人的声音信号,而不拾取其他噪声信号的功能。

11、在一种可能的实现方式中,所述将所述第一声音信号和所述第二声音信号中的重复信号从所述第一声音信号中消除,以得到所述第一目标声音信号,包括:

12、将所述第一声音信号以及所述第二声音信号输入至预设模型中进行处理,以得到所述第一目标声音信号。

13、通过基于ai抵消处理,即可以将两个声音信号中相同的部分进行抵消,最后得到第一目标声音信号。

14、在一种可能的实现方式中,所述第一目标拾音区域为封闭的区域,且所述第一目标拾音区域的边界由所述第一拾音区域的边界和所述第二拾音区域的边界构成。

15、例如,基于该两个麦克风阵列的位置以及该第一音幕范围可以将该第一发言人所处房间划分为9个区域(即九宫格)。其中,该第一音幕范围可位于其他8个区域的中间。这样设置,即使说话人不靠近墙体,也能够为该说话人形成封闭的音幕范围,进而根据该封闭的音幕范围达到拾取该说话人的声音信号、而不拾取噪声信号的目的。

16、在一种可能的实现方式中,所述根据所述第一音幕范围确定第一拾音区域和第二拾音区域,包括:根据第一音幕范围确定第一麦克风阵列的位置,第二麦克风阵列的位置,第一波束和第二波束。根据第一麦克风阵列的位置和第一波束确定第一拾音区域。根据第二麦克风阵列的位置和第二波束确定第二拾音区域。

17、其中,在根据第一音幕范围确定了各麦克风阵列的位置后,可对各麦克风阵列设置波束参数,以便进行拾音。该波束参数可包括张角。每个波束的张角分别对应一个声音采集区域。这样设计,可以获取到相应的拾音区域的声音信号。

18、在一种可能的实现方式中,所述第一音幕范围为多边形,所述第一麦克风阵列位于所述多边形的第一顶点,所述第二麦克风阵列位于所述多边形的第二顶点。

19、通过将麦克风阵列设置在多边形的顶点,这样可以有助于基于各麦克风阵列在设置波束后所构成的第一目标拾音区域与第一音幕范围更好的重叠,进而可以提高拾取第一发言人的声音信号的准确性。

20、在一种可能的实现方式中,终端处理单元根据第一发言人的位置确定所述第一音幕范围。该第一发言人可以是远程会议或者远程教学中的发言的人员,该发言的人员可以是任意人员。例如,老师处于讲台区域讲话,则该第一音幕范围可以是该讲台区域。学生处于座位上发言,则该第一音幕范围可以是该学生座位形成的封闭区域等。

21、在另一种可能的实现方式中,终端处理单元根据噪声覆盖区域确定所述第一音幕范围。该噪声覆盖区域可以是除第一发言人的声音外的其他声音的覆盖区域。

22、可选的,该第一音幕范围可以是除该噪声覆盖区域外的其他区域。例如,教室中最后一排座位有噪声覆盖。则该第一音幕范围可以是包含从讲台到倒数第二排的区域。

23、在又一种可能的实现方式中,终端处理单元根据用户的输入确定所述第一音幕范围。

24、终端处理单元基于接收到的用户的输入进而确定音幕范围。其中,该输入可以是文字、图形、或者语音等,本方案对此不作严格限制。

25、当然,上述各种示例的方式还可以进行组合来确定音幕范围。例如,根据第一发言人的位置和噪声覆盖区域来确定所述第一音幕范围。再如,根据第一发言人的位置和用户的输入来确定所述第一音幕范围。再如,根据第一发言人的位置、噪声覆盖区域和用户的输入来确定所述第一音幕范围等。

26、基于上述方式可以实现灵活地、准确地设置音幕范围。例如,通过将噪声覆盖区域外的区域确定为第一音幕范围,这样便于仅拾取到第一发言人的声音信号且不包含噪声信号。

27、在一种可能的实现方式中,所述方法还包括:响应于检测到该第一发言人的位置、该噪声覆盖区域或该用户的输入中的一项或多项的变化,终端处理单元根据该变化后的第一发言人的位置、该变化后的噪声覆盖区域或该变化后的用户的输入中的一项或多项,更新该第一音幕范围。然后,终端处理单元根据该更新后的第一音幕范围更新该第一拾音区域和该第二拾音区域,以使得由该更新后的第一拾音区域和该更新后的第二拾音区域构成的第二目标拾音区域与该更新后的第一音幕范围重叠。其中,该更新后的第一拾音区域是该第一麦克风阵列在设置第三波束后的声音采集区域。该更新后的第二拾音区域是该第二麦克风阵列在设置第四波束后的声音采集区域。终端处理单元根据第三声音信号和第四声音信号得到更新后的第一目标声音信号。其中,该第三声音信号是从该更新后的第一拾音区域中采集到,且该第三声音信号包含更新后的第一发言人的声音信号和更新后的第一噪声信号。该第四声音信号是从该更新后的第二拾音区域中采集到,且该第四声音信号包含该更新后的第一噪声信号。该更新后的第一目标声音信号包含该更新后的第一发言人的声音信号且不包含该更新后的第一噪声信号。

28、该示例中,当检测到第一发言人的位置、噪声覆盖区域或用户的输入中的一项或多项的变化时,更新第一音幕范围,进而更新第一拾音区域和第二拾音区域,以得到更新后的第一目标声音信号。采用该手段,可以在不改变麦克风阵列的位置的情况下,根据实际情况动态调整音幕范围,进而可获取到调整后的音幕范围对应的声音信号,提升了远程开会或教学的体验。

29、在一种可能的实现方式中,所述方法还包括:终端处理单元确定第二音幕范围。终端处理单元根据该第二音幕范围确定第三拾音区域和第四拾音区域,以使得由该第三拾音区域和该第四拾音区域构成的第三目标拾音区域与该第二音幕范围重叠。其中,该第三拾音区域是该第一麦克风阵列在设置第五波束后的声音采集区域。该第四拾音区域是该第二麦克风阵列在设置第六波束后的声音采集区域。终端处理单元根据第五声音信号和第六声音信号得到第二目标声音信号。其中,该第五声音信号是从该第三拾音区域中采集到,且该第五声音信号包含该第二发言人的声音信号和第二噪声信号。该第六声音信号是从该第四拾音区域中采集到,且该第六声音信号包含该第二噪声信号。该第二目标声音信号包含该第二发言人的声音信号且不包含该第二噪声信号。

30、其中,麦克风阵列可同时设置多个波束,以获取到不同拾音区域的声音信号。

31、该示例中,基于一次部署麦克风阵列的位置,结合设置多个波束来同时获取多个说话人的声音信号。采用该手段,提升了远程开会或教学的体验。

32、第二方面,本技术实施例提供一种声音处理装置,包括:第一确定模块,用于确定第一音幕范围;第二确定模块,用于根据所述第一音幕范围确定第一拾音区域和第二拾音区域,以使得由所述第一拾音区域和所述第二拾音区域构成的第一目标拾音区域与所述第一音幕范围重叠;其中,所述第一拾音区域是第一麦克风阵列在设置第一波束后的声音采集区域,所述第二拾音区域是第二麦克风阵列在设置第二波束后的声音采集区域;信号处理模块,用于根据第一声音信号和第二声音信号得到第一目标声音信号;其中,所述第一声音信号是从所述第一拾音区域中采集到,且所述第一声音信号包含第一发言人的声音信号和第一噪声信号,所述第二声音信号是从所述第二拾音区域中采集到,且所述第二声音信号包含所述第一噪声信号,所述第一目标声音信号包含所述第一发言人的声音信号且不包含所述第一噪声信号。

33、在一种可能的实现方式中,所述第一拾音区域和所述第二拾音区域具有重叠区域,所述重叠区域的声音信号包含所述第一噪声信号,所述第一目标拾音区域为所述第一拾音区域去除所述重叠区域后的区域。

34、在一种可能的实现方式中,所述信号处理模块,用于:将所述第一声音信号和所述第二声音信号中的重复信号从所述第一声音信号中消除,以得到所述第一目标声音信号。

35、在一种可能的实现方式中,所述信号处理模块,还用于:将所述第一声音信号以及所述第二声音信号输入至预设模型中进行处理,以得到所述第一目标声音信号。

36、在一种可能的实现方式中,所述第一目标拾音区域为封闭的区域,且所述第一目标拾音区域的边界由所述第一拾音区域的边界和所述第二拾音区域的边界构成。

37、在一种可能的实现方式中,所述第二确定模块,用于:根据所述第一音幕范围确定所述第一麦克风阵列的位置,所述第二麦克风阵列的位置,所述第一波束和所述第二波束;根据所述第一麦克风阵列的位置和所述第一波束确定所述第一拾音区域;根据所述第二麦克风阵列的位置和所述第二波束确定所述第二拾音区域。

38、在一种可能的实现方式中,所述第一音幕范围为多边形,所述第一麦克风阵列位于所述多边形的第一顶点,所述第二麦克风阵列位于所述多边形的第二顶点。

39、在一种可能的实现方式中,所述第一确定模块,用于:根据所述第一发言人的位置、噪声覆盖区域和用户的输入中的一项或多项确定所述第一音幕范围。

40、在一种可能的实现方式中,所述第一确定模块,还用于:响应于检测到所述第一发言人的位置、所述噪声覆盖区域或所述用户的输入中的一项或多项的变化,根据所述变化后的第一发言人的位置、所述变化后的噪声覆盖区域或所述变化后的用户的输入中的一项或多项,更新所述第一音幕范围;所述第二确定模块,还用于:根据所述更新后的第一音幕范围更新所述第一拾音区域和所述第二拾音区域,以使得由所述更新后的第一拾音区域和所述更新后的第二拾音区域构成的第二目标拾音区域与所述更新后的第一音幕范围重叠;其中,所述更新后的第一拾音区域是所述第一麦克风阵列在设置第三波束后的声音采集区域,所述更新后的第二拾音区域是所述第二麦克风阵列在设置第四波束后的声音采集区域;所述信号处理模块,还用于:根据第三声音信号和第四声音信号得到更新后的第一目标声音信号;其中,所述第三声音信号是从所述更新后的第一拾音区域中采集到,且所述第三声音信号包含更新后的第一发言人的声音信号和更新后的第一噪声信号,所述第四声音信号是从所述更新后的第二拾音区域中采集到,且所述第四声音信号包含所述更新后的第一噪声信号,所述更新后的第一目标声音信号包含所述更新后的第一发言人的声音信号且不包含所述更新后的第一噪声信号。

41、在一种可能的实现方式中,所述第一确定模块,还用于确定第二音幕范围;所述第二确定模块,还用于根据所述第二音幕范围确定第三拾音区域和第四拾音区域,以使得由所述第三拾音区域和所述第四拾音区域构成的第三目标拾音区域与所述第二音幕范围重叠;其中,所述第三拾音区域是所述第一麦克风阵列在设置第五波束后的声音采集区域,所述第四拾音区域是所述第二麦克风阵列在设置第六波束后的声音采集区域;所述信号处理模块,还用于根据第五声音信号和第六声音信号得到第二目标声音信号;其中,所述第五声音信号是从所述第三拾音区域中采集到,且所述第五声音信号包含第二发言人的声音信号和第二噪声信号,所述第六声音信号是从所述第四拾音区域中采集到,且所述第六声音信号包含所述第二噪声信号,所述第二目标声音信号包含所述第二发言人的声音信号且不包含所述第二噪声信号。

42、第三方面,本技术提供了一种声音处理装置,包括处理器和存储器;其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如第一方面任一种可能的实施方式提供的方法。

43、第四方面,本技术提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面任一种可能的实施方式提供的方法。

44、第五方面,本技术实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一种可能的实施方式提供的方法。

45、第六方面,本技术提供了一种声音处理系统,包括如第三方面的声音处理装置,第一麦克风阵列,第二麦克风阵列和扬声器;所述第一麦克风阵列和所述第二麦克风阵列分别用于采集得到第一声音信号和第二声音信号;所述扬声器用于扩声播放所述声音处理装置根据所述第一声音信号和所述第二声音信号得到的第一目标声音信号。

46、可以理解地,上述提供的第二方面所述的装置、第三方面所述的装置、第四方面所述的计算机存储介质、第五方面所述的计算机程序产品或者第六方面所述的声音处理系统均用于执行第一方面中任一所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20953.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。