技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于非调制声音信号的定位方法及装置  >  正文

一种基于非调制声音信号的定位方法及装置

  • 国知局
  • 2024-06-21 11:51:51

本技术属于语音识别,更具体地,涉及一种基于非调制声音信号的定位方法及装置。

背景技术:

1、室内定位可以分为:基于无线的方式,基于光学视觉的方式,以及基于声音的方式。其中,基于无线的定位方式的定位效果易受到其它无线频段干扰,且受设备性能限制,实现成本较高,同时不同定位设备之间需要兼容的协议才能实现兼容定位;基于光学视觉的定位方式在可见光较低或遮挡物遮挡的场景下,定位效果较差,同时还存在隐私安全等问题。

2、相较来说,基于声音的定位方式可以克服基于无线和基于光学视觉的方式的上述缺陷。传统的声音定位方式包括两种:一种是基于声音强度信息的麦克风阵列定位方式,通过计算不同方位麦克风接收的声音强度信息来实现位置的结算。但是不同声音类别的声音强度信息往往不一样,这种方式在存在混合声源或者不同类别声音的场景下定位性能较差。

3、另一种是基于超声波的定位方式,该方式需要依赖于特定的超声波发送和接收设备,同时超声波的往往是定向发送与接收,只能在某一个方位进行定位。

4、因此,还需要进一步对基于声音的定位方式进行改进。

技术实现思路

1、针对相关技术的缺陷,本技术的目的在于提供一种基于非调制声音信号的定位方法及装置,旨在解决传统基于声音的定位方式定位性能受限的问题。

2、第一方面,本技术实施例提供一种基于非调制声音信号的定位方法,包括:

3、通过fastica算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;

4、使用librosa库将分离音频转换为mfcc特征向量;

5、将mfcc特征向量输入至预训练好的bilstm模型,获取输入mfcc特征向量对应的分离音频的音频类别;

6、将确定好音频类别的分离音频对应的mfcc特征向量输入至预训练好的lightgbm模型,获取输入mfcc特征向量对应的分离音频的音频距离;

7、基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。

8、在一些实施例中,bilstm模型通过以下步骤训练得到:

9、基于用户设备采集到的不同类别的音频信号,构建第一数据集;

10、使用librosa库将第一数据集中的音频信号转换为mfcc特征向量;

11、基于mfcc特征向量和预定义的音频类别标签训练得到bilstm模型。

12、在一些实施例中,lightgbm模型通过以下步骤训练得到:

13、基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;

14、使用librosa库将第二数据集中的音频信号转换为mfcc特征向量;

15、将mfcc特征向量输入至lightgbm模型,获得输入mfcc特征向量对应的音频信号的预测距离;

16、以最小化预测距离和实际距离的差值绝对值为目标,迭代更新lightgbm模型的模型参数,直至满足迭代条件。

17、在一些实施例中,确定用户设备或音频类别对应的声源设备的位置,包括:

18、基于预先确定的至少三个用户设备的位置,以及至少三个用户设备采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,

19、基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,

20、基于预先确定的至少三类分离音频对应的声源设备的位置,以及至少三类分离音频对应的音频距离,确定采集至少三类分离音频的用户设备的位置。

21、在一些实施例中,确定采集至少三类分离音频的用户设备的位置,包括:

22、以至少三类分离音频对应的声源设备的位置为中心,以bilstm模型输出的至少三类分离音频对应的音频距离为半径,分别构建三维球体;

23、确定不同的三维球体的交点为采集至少三类分离音频的用户设备的位置。

24、第二方面,本技术实施例还提供一种基于非调制声音信号的定位装置,包括:

25、音频分离模块,用于通过fastica算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;

26、特征提取模块,用于使用librosa库将分离音频转换为mfcc特征向量;

27、音频类别获取模块,用于将mfcc特征向量输入至预训练好的bilstm模型,获取输入mfcc特征向量对应的分离音频的音频类别;

28、音频距离获取模块,用于将确定好音频类别的分离音频对应的mfcc特征向量输入至预训练好的lightgbm模型,获取输入mfcc特征向量对应的分离音频的音频距离;

29、定位模块,用于基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。

30、在一些实施例中,bilstm模型通过以下步骤训练得到:

31、基于用户设备采集到的不同类别的音频信号,构建第一数据集;

32、使用librosa库将第一数据集中的音频信号转换为mfcc特征向量;

33、基于mfcc特征向量和预定义的音频类别标签训练得到bilstm模型。

34、在一些实施例中,lightgbm模型通过以下步骤训练得到:

35、基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;

36、使用librosa库将第二数据集中的音频信号转换为mfcc特征向量;

37、将mfcc特征向量输入至lightgbm模型,获得输入mfcc特征向量对应的音频信号的预测距离;

38、以最小化预测距离和实际距离的差值绝对值为目标,迭代更新lightgbm模型的模型参数,直至满足迭代条件。

39、在一些实施例中,定位模块具体用于:

40、基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,

41、基于预先确定的至少三类分离音频对应的声源设备的位置,以及至少三类分离音频对应的音频距离,确定采集至少三类分离音频的用户设备的位置。

42、在一些实施例中,定位模块具体用于:

43、以至少三类分离音频对应的声源设备的位置为中心,以bilstm模型输出的至少三类分离音频对应的音频距离为半径,分别构建三维球体;

44、确定不同的三维球体的交点为采集至少三类分离音频的用户设备的位置。

45、第三方面,本技术实施例还提供一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

46、第四方面,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

47、第五方面,本技术实施例还提供一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

48、本技术实施例提供的一种基于非调制声音信号的定位方法及装置,利用fastica算法对用户设备采集的周围环境的混合音频进行盲源分离,得到分离音频,并利用bibrosa库提取分离音频的mfcc特征向量;然后利用bilstm模型和lightgbm模型分别获取分离音频的音频类别和音频距离;最后利用各个分离音频的音频类别和音频距离,来实现用户设备或声源设备的定位;利用声音的mfcc特征的来实现定位,同时通过使用机器学习的方式对不同类别的声源信息进行单独的距离测算,定位精度高且不需要依赖于特定的麦克风阵列设备和超声波设备;仅利用声音的类别信息和距离信息,抗干扰性强;同时还可以实现对声源的全方位识别和定位。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24071.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。