技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多通路声学谐振腔的说话人定位装置与方法 > 正文

一种基于多通路声学谐振腔的说话人定位装置与方法

国知局
2024-06-21 11:41:00

本发明涉及一种基于多通路声学谐振腔的说话人定位装置与方法，属于声纹识别。

背景技术：

1、声学超构材料是由亚波长人工微结构单元组成的人工材料，具有自然材料所不具备的优良声波操控能力。串联式声学谐振腔作为一种结构简单的声学超构材料，通过适当的参数选择，能够在人声所覆盖的频率范围内具有良好的频率调制能力，且具有厚度薄、结构简单、成本低等优点。此外，声纹是将一个人的声音与其他人区分开的特征，基于深度学习的声纹识别技术能够发现不同人说话产生的语音语谱图之间的差异，常被用于说话人识别领域，具有广泛的应用场景，如身份验证、人机智能交互等。

2、目前实现声源定位的方法，在硬件上主要是利用麦克风阵列，如线阵列、圆阵列、多臂螺旋阵列和球阵列等，以及信号处理分析的硬件设备，算法上主要采用波达时间估计、波束形成等方法，根据不同的应用场景选择合适的麦克风阵列和后处理算法。这种方法存在的缺点在于，在硬件上需要复杂的麦克风阵列和电路系统，成本较高，后处理算法复杂，对信号处理硬件算力要求较高，计算耗时长。

技术实现思路

1、本发明的目的在于克服现有技术中存在的不足，提供一种基于多通路声学谐振腔的说话人定位装置与方法。

2、为实现上述目的，本发明采取的技术方案是如下：

3、一方面，本发明提供一种基于多通路声学谐振腔的说话人定位装置，包括麦克风和多通路声学谐振腔结构，所述麦克风通过信号采集设备连接计算机，所述多通路声学谐振腔结构包括矩形主体以及设在矩形主体内部的四个通路和长方体空气腔，所述四个通路呈十字型相交设置，其交点位于矩形主体的中心处，并且在该中心处设置有所述麦克风，同时在每条通路上从外向内依次设有两个长方体空气腔，其中靠近入口处的长方体空气腔尺寸大于靠近中心处的长方体空气腔，并且同一条通路上的两个长方体空气腔的宽度和高度相同、长度为两倍关系，不同通路上的长方体空气腔的宽度和高度均相同，不同通路上的小尺寸长方体空气腔的长度呈逐级增加关系，不同通路上的大尺寸长方体空气腔的长度呈逐级增加关系。

4、进一步的，所述四个通路分别为第一通路、第二通路、第三通路和第四通路，四个通路的入口分别位于矩形主体四个侧边的中间位置，所述第一通路上设置有第一大长方体空气腔和第一小长方体空气腔，所述第二通路上设置有第二大长方体空气腔和第二小长方体空气腔，所述第三通路上设置有第三大长方体空气腔和第三小长方体空气腔，所述第四通路上设置有第四大长方体空气腔和第四小长方体空气腔。

5、更进一步的，所述四个通路均为四边等长的矩形通道，其入口每边尺寸为10mm。

6、更进一步的，所述第一小长方体空气腔的长度为30mm，宽度为30mm，高度为10mm；所述第一大长方体空气腔的长度为60mm，宽度为30mm，高度为10mm。

7、更进一步的，所述第二小长方体空气腔的长度为40mm，宽度为30mm，高度为10mm；所述第二大长方体空气腔的长度为80mm，宽度为30mm，高度为10mm。

8、更进一步的，所述第三小长方体空气腔的长度为50mm，宽度为30mm，高度为10mm；所述第三大长方体空气腔的长度为100mm，宽度为30mm，高度为10mm。

9、更进一步的，所述第四小长方体空气腔的长度为60mm，宽度为30mm，高度为10mm；所述第四大长方体空气腔的长度为120mm，宽度为30mm，高度为10mm。

10、进一步的，所述矩形主体的长宽度均为l＝230mm，高度为h＝20mm。

11、进一步的，所述矩形主体采用光敏树脂材料3d打印制作而成。

12、另一方面，本发明还提供一种基于多通路声学谐振腔的说话人定位方法，该方法采用上述的定位装置进行声音调制，调制后的声音被结构中心的麦克风接收，再通过信号采集设备传入计算机，最后输入到预先训练好的声纹识别模型中，模型输出说话人定位结果。

13、本发明的有益效果是：本发明将声学谐振腔结构引入进来，通过调整谐振腔的结构参数可以实现效果各异的频率调制效果，利用不同方向上的谐振腔结构对语音信号进行频率上的调制，使得各个方向的入射声具有不同的声纹特征，再结合基于深度学习的声纹识别算法，完成对声音方向的判别，实现说话人定位。

14、本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种基于多通路声学谐振腔的说话人定位装置，包括麦克风，所述麦克风通过信号采集设备连接计算机，其特征在于，还包括多通路声学谐振腔结构，所述多通路声学谐振腔结构包括矩形主体以及设在矩形主体内部的四个通路和长方体空气腔，所述四个通路呈十字型相交设置，其交点位于矩形主体的中心处，并且在该中心处设置有所述麦克风，同时在每条通路上从外向内依次设有两个长方体空气腔，其中靠近入口处的长方体空气腔尺寸大于靠近中心处的长方体空气腔，并且同一条通路上的两个长方体空气腔的宽度和高度相同、长度为两倍关系，不同通路上的长方体空气腔的宽度和高度均相同，不同通路上的小尺寸长方体空气腔的长度呈逐级增加关系，不同通路上的大尺寸长方体空气腔的长度呈逐级增加关系。

2.根据权利要求1所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述四个通路分别为第一通路、第二通路、第三通路和第四通路，四个通路的入口分别位于矩形主体四个侧边的中间位置，所述第一通路上设置有第一大长方体空气腔和第一小长方体空气腔，所述第二通路上设置有第二大长方体空气腔和第二小长方体空气腔，所述第三通路上设置有第三大长方体空气腔和第三小长方体空气腔，所述第四通路上设置有第四大长方体空气腔和第四小长方体空气腔。

3.根据权利要求2所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述四个通路均为四边等长的矩形通道，其入口每边尺寸为10mm。

4.根据权利要求2所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述第一小长方体空气腔的长度为30mm，宽度为30mm，高度为10mm；所述第一大长方体空气腔的长度为60mm，宽度为30mm，高度为10mm。

5.根据权利要求4所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述第二小长方体空气腔的长度为40mm，宽度为30mm，高度为10mm；所述第二大长方体空气腔的长度为80mm，宽度为30mm，高度为10mm。

6.根据权利要求5所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述第三小长方体空气腔的长度为50mm，宽度为30mm，高度为10mm；所述第三大长方体空气腔的长度为100mm，宽度为30mm，高度为10mm。

7.根据权利要求6所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述第四小长方体空气腔的长度为60mm，宽度为30mm，高度为10mm；所述第四大长方体空气腔的长度为120mm，宽度为30mm，高度为10mm。

8.根据权利要求1所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述矩形主体的长宽度均为l＝230mm，高度为h＝20mm。

9.根据权利要求1所述的一种基于多通路声学谐振腔的说话人定位装置，其特征在于，所述矩形主体采用光敏树脂材料3d打印制作而成。

10.一种基于多通路声学谐振腔的说话人定位方法，其特征在于，该方法采用上述权利要求1至9中任一项所述的定位装置进行声音调制，调制后的声音被结构中心的麦克风接收，再通过信号采集设备传入计算机，最后输入到预先训练好的声纹识别模型中，模型输出说话人定位结果。

技术总结本发明公开了一种基于多通路声学谐振腔的说话人定位装置，包括麦克风和多通路声学谐振腔结构，所述麦克风通过信号采集设备连接计算机，所述多通路声学谐振腔结构包括矩形主体、四个通路和长方体空气腔，所述四个通路呈十字型相交设置，其交点位于矩形主体的中心处，并且在该中心处设置有所述麦克风，同时在每条通路上从外向内依次设有两个长方体空气腔，其中靠近入口处的长方体空气腔尺寸大于靠近中心处的长方体空气腔。本发明利用不同方向上的谐振腔结构对语音信号进行频率上的调制，使得各个方向的入射声具有不同的声纹特征，再结合基于深度学习的声纹识别算法，完成对声音方向的判别，实现说话人定位。技术研发人员：邹欣晔,李鑫,陈谦,程建春,牛锋,何龙标,杨平受保护的技术使用者：南京大学技术研发日：技术公布日：2024/3/31