技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于超图注意力的声音定位和检测方法、系统及设备 > 正文

一种基于超图注意力的声音定位和检测方法、系统及设备

国知局
2024-06-21 11:53:01

本发明涉及一种声音定位和检测方法、系统及设备，尤其涉及一种基于超图注意力网络的声音定位和检测方法、系统及设备，属于机器学习和音频处理领域。

背景技术：

1、机器学习，机器学习是一种人工智能的分支，其目标是让计算机系统通过学习数据和模式而不是通过明确的编程来改进性能。机器学习的核心思想是让计算机系统从经验中学习，并能够适应新的数据，而无需显式地进行编程。在机器学习中，算法被设计为能够自动地识别和应用数据中的模式，以做出决策或预测未来的数据。机器学习可以分为几个主要类型：监督学习，在这种类型中，算法接受带有标签的训练数据，学习输入和输出之间的映射关系，从而能够对新的、未标记的数据进行预测；无监督学习，这类算法使用未标记的数据进行训练，目标是发现数据中的结构和模式；半监督学习，这是监督学习和无监督学习的结合，其中模型使用带标签和未标签的数据进行训练；强化学习，在这种学习方式中，算法通过与环境的交互学习，通过尝试最大化奖励来做出决策。机器学习应用广泛，包括语音识别、图像识别、自然语言处理、医学诊断、金融预测等领域。

2、音频处理是指对音频信号进行分析、修改、合成或其他操作的一系列技术和方法。这涵盖了多个领域，早期对声音事件的定位和检测(seld)任务主要使用的是传统的方法，比如到达时间差(tdoa)、多信号分类(music)、波束成形(beamforming)、espri等方法。后来出现使用传统的机器学习算法来对声音进行定位和检测，比如支持向量机(svm)、决策树等。随着深度学习的兴起，近年来使用卷积神经网络(cnn)、循环神经网络(rnn)和注意力机制等方法在声音处理中取得了显著的进展，尤其在语音识别和环境声音处理领域。但是在使用深度学习方法的早期，对声音的定位和检测需要分成两个网络分别针对定位和检测进行训练，导致增加权重分配问题，参数较多，速度也较慢；后来随着主动耦合笛卡尔到达方向(accdoa)方法的出现，才将定位和检测融合到一个网络中进行训练。但是无论卷积神经还是循环神经网络，都是依靠提取欧几里得空间的特征，模型学习特征较为单一，性能指标不足。

技术实现思路

1、发明目的：针对上述现有技术存在的问题，本发明目的在于提供一种能提高声音的定位和检测问题准确度的一种基于超图注意力的声音定位和检测方法、系统及设备。

2、技术方案：为实现上述发明目的，本发明采用如下技术方案：

3、本发明所述的基于超图注意力的声音定位和检测方法，包括如下步骤：

4、步骤1：数据获取与整理；获取数据集，将其分为训练集、验证集和测试集；

5、步骤2：特征提取，对各个数据集中的音频数据进行特征提取得到各个数据集的特征；

6、步骤3：基于金字塔卷积模块、超图注意力网络构建超图注意力模型，将待测音频数输入模型，得到定位和检测结果；具体包括：

7、步骤3.1：将训练集的特征，输入到金字塔卷积模块，获取欧氏空间特征并进行池化，得到卷积模块的输出；

8、步骤3.2：基于卷积模块的输出，使用多头自注意力模块获取全局上下文信息，划分多个时间块，构建图结构，输入到超图注意力网络，将得到结果经过动态图卷积网络操作，得到动态图卷积网络的输出；

9、步骤3.3：将动态图卷积网络的输出，利用双向门控循环单元来获取音频数据的时序特征，经过线性层得到accdoa格式的输出结果，

10、步骤3.4：将所述输出结果与相应的标签特征经过mseloss均方差误差计算得到训练误差；读取验证集和测试集的特征进行训练，完成超图注意力模型构建，将待测音频数输入模型，得到定位和检测结果。

11、进一步地，所述步骤1包括：

12、步骤1.1：从公开的网站上获取数据集，所述数据集包含人工合成数据、真实数据以及标签数据；所述标签数据为对人工合成数据和真实数据进行标注的数据，包括男声、女声、掌声、电话声、笑声、室内声、脚步声、开关门声、音乐声、乐器声、水龙头声、门铃声和敲门声的帧下标、声源、种类以及俯仰角；

13、步骤1.2：将人工合成数据以及部分的真实数据作为训练集，将剩余真实数据划分为验证集和测试集。

14、进一步地，所述步骤2包括：

15、读取各数据集的音频数据，对其进行分帧操作，将一段音频按照某一时间跨度，划分成若干段，再进行加窗操作，采用汉明窗口进行分窗操作，最后进行快速傅里叶变换，获取各数据集的时频域特征；

16、将各数据集的时频域特征，经过平方获得音频幅度，将音频转换为分贝，利用梅尔滤波器，获取梅尔谱特征；

17、将各数据集的时频域特征通过计算得到音频的稠密向量；

18、将梅尔谱图特征和稠密向量特征进行拼接融合，得到各数据集的输入特征。

19、进一步地，所述步骤3.1具体为，按照一定的批大小读取训练集的输入特征，输入金字塔卷积模块，获取高维欧氏空间特征，再利用池化层缩减特征个数，减少模型参数，加快模型的训练，得到输出y：

20、x1＝dp(mp(relu(bn(conv(x)))))

21、x2＝dp(mp(relu(bn(conv(x1))))

22、x3＝dp(mp(relu(bn(conv(x2))))

23、y＝mp(con(x1,x2,x3))

24、其中，x表示初始输入的训练集特征，x1表示第一层输入，同时也是初始的输入特征，x2和x3分别表示第二层和第三层的输入，mp表示最大池化，conv表示卷积，con表示拼接，dp表示随机失活,bn表示批标准化,relu表示激活函数。

25、进一步地，所述步骤3.2具体为：

26、使用多头自注意力模块来获取全局上下文信息：

27、y'＝mhsa(mlp(y))

28、其中，mhsa是多头自注意力模块，y'是mhsa的输出；

29、y'的通道数为c，频率维度为f，时间维度为t，按照时间维度使用滑动窗口对特征进行划分，t表示滑动窗口的大小，n＝t/t表示滑动窗口划分的总块数，ti表示划分的第i块；利用图结构和超图，获取音频的空间特征，令n＝n表示超图的节点数，e表示连接超图节点的超边，使用步长s的窗口，每次右移一个节点，将n个节点划分成n-s+1个块，既超边，再使用超边重新表示原来超图的n个节点n1,n2,......nn，e1,e2,......en-s+1表示n-s+1个超边，如下式所示：

30、

31、

32、其中，ni表示第i个节点，s表示划分超边的步长，ei表示第i个超边，wij表示可学习的权重系数；

33、使超图注意力网络得到的特征g经过动态图卷积网络；

34、计算中心点与邻居点的距离，再对距离进行归一化操作：

35、gd＝normalization(dist(hi,hj|hj∈n(hi)))⊙g

36、g'＝mlp(update(gd,aggregate(gd,wagg),wupdate))

37、其中hi是中心顶点，hj∈n(hi)是hi的邻居顶点，dist(·)是计算中心顶点到邻居顶点的距离，normalization(·)是归一化距离，⊙表示逐元素相乘，gd是将中心顶点到邻居顶点的距离作为权重值与g结合之后产生的新的输入，g'是动态图卷积网络的输出，wagg和wupdate是动态图卷积网络gcn的核心，分别是aggregate(·)和update(·)操作的可学习权值。

38、进一步地，所述步骤3.3具体为：

39、将动态图卷积网络的输出g'输入到双向门控循环单元来获取音频的时序特征，再经过线性层得到最终的输出结果：

40、y”＝tanh(fc(bigru(g')))

41、其中，tanh是激活函数，fc是线性层，bigru是双向门控循环单元。

42、基于相同的发明构思，本发明还提供了一种基于超图注意力的声音定位和检测系统，包括：

43、预处理模块，用于数据获取与整理；获取数据集，将其分为训练集、验证集和测试集；

44、特征提取模块，用于对各个数据集中的音频数据进行特征提取得到各个数据集的特征；

45、模型构建与检测模块，用于通过金字塔卷积模块、超图注意力网络构建超图注意力模型，将待测音频数输入模型，得到定位和检测结果，具体为：

46、将训练集的特征，输入到金字塔卷积模块，获取欧氏空间特征并进行池化，得到卷积模块的输出；

47、基于卷积模块的输出，使用多头自注意力模块获取全局上下文信息，划分多个时间块，构建图结构，输入到超图注意力网络，将得到结果经过动态图卷积网络操作，得到动态图卷积网络的输出；

48、将动态图卷积网络的输出，利用双向门控循环单元来获取音频数据的时序特征，经过线性层得到输出结果，

49、将所述输出结果与相应的标签特征经过均方差误差计算得到训练误差；读取验证集和测试集的特征进行训练，完成超图注意力模型构建，将待测音频数输入模型，得到定位和检测结果。

50、进一步地，所述特征提取模块，用于对各个数据集中的音频数据进行特征提取得到各个数据集的特征，具体为：

51、读取各数据集的音频数据，对其进行分帧操作，将一段音频按照某一时间跨度，划分成若干段，再进行加窗操作，采用汉明窗口进行分窗操作，最后进行快速傅里叶变换，获取各数据集的时频域特征；

52、将各数据集的时频域特征，经过平方获得音频幅度，将音频转换为分贝，利用梅尔滤波器，获取梅尔谱特征；

53、将各数据集的时频域特征通过计算得到音频的稠密向量；

54、将梅尔谱图特征和稠密向量特征进行拼接融合，得到各数据集的输入特征。

55、基于相同的发明构思，本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述任一项所述的基于超图注意力的声音定位和检测方法的步骤。

56、基于相同的发明构思，本发明还提供了一种计算设备，包括：一个或多个处理器、一个或多个存储器以及一个或多个程序，所述程序存储在存储器中并被配置为由处理器执行，所述程序被加载至处理器时实现上述任一项所述的基于超图注意力的声音定位和检测方法的步骤。

57、有益效果：与现有技术相比，本发明具有如下显著优点：1、将超图思想引入到声音的定位和检测任务中，使用滑动窗口将音频特征划分为多个时间块，使用超图来提取块与块之间的上下文特征，实现了非欧几里得空间特征的提取；2、使用的卷积模块是金字塔卷积模块，将每一层的卷积结果记录下来，最后拼接在一起，具有更好的性能；3、图卷积在进行聚合时使用了星型结构进行聚合，相比传统的聚合方法，它能够获取局部和全局的特征，此外，还将中心点到邻居点的距离作为权重参数聚合到中心点，从而使得聚合函数具有更好的聚合能力。