一种基于深度学习的海豚声音生成方法
- 国知局
- 2024-06-21 11:30:57
本发明涉及声音合成,具体涉及一种基于深度学习的海豚声音生成方法。
背景技术:
1、近年来,有研究尝试使用人工智能技术来模拟海豚的声音生成。例如,一种基于生成对抗网络的海豚叫声生成方法被提出,该方法通过训练判别器模型和生成器模型来生成海豚叫声。这种技术不仅有助于更深入地理解海豚的声音语言,也为人工合成海豚声音提供了方向。
2、海豚发出的声音包括以下特点:高频率、宽频带、由一系列复杂而多变的音调组成、以及具备声纳定位与回声定位。因此,海豚声音本身融合大量信息,且具备高频率和宽频带的特征,若采用现有的海豚叫声生成方法,直接以海豚叫声样本为训练样本,训练后的生成器模型生成的海豚声音精度较低。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种基于深度学习的海豚声音生成方法解决了现有的海豚叫声生成方法生成的海豚声音精度低的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:一种基于深度学习的海豚声音生成方法,包括以下步骤:
3、s1、采用emd分解算法对海豚原始声音进行分解,得到多个emd原始信号;
4、s2、对每个emd原始信号提取奇异值,构建奇异值特征矩阵;
5、s3、对每个emd原始信号提取时频特征,构建时频特征矩阵;
6、s4、采用深度学习模型处理奇异值特征矩阵和时频特征矩阵,生成emd估计信号;
7、s5、将多个emd估计信号进行组合,生成海豚声音。
8、本发明的有益效果为:本发明中采用emd分解算法对海豚原始声音进行分解,得到多个emd原始信号,每个emd原始信号包含部分声音特征,再提取奇异值和时频特征,实现获取每个emd原始信号的声音特征,采用深度学习模型处理奇异值特征矩阵和时频特征矩阵,生成emd估计信号,将多个emd估计信号进行叠加组合,得到海豚声音。本发明中将海豚原始声音进行了分解,使得每个emd原始信号仅包含海豚原始声音的部分特征,数据量更少,复杂度更低,能提高生成海豚声音的精度。
9、进一步地,所述s2包括以下分步骤:
10、s21、根据每个emd原始信号,构建对应的轨迹矩阵;
11、s22、对轨迹矩阵进行奇异值分解,得到奇异值特征向量;
12、s23、根据奇异值特征向量,构建奇异值特征矩阵,a=ata,其中,a为奇异值特征矩阵,a为奇异值特征向量,t为转置运算。
13、进一步地,所述s3包括以下分步骤:
14、s31、提取每个emd原始信号的时域特征,其中,时域特征包括:峰峰值、偏度、峭度和波形因数;
15、s32、对每个emd原始信号进行频域变换,得到频域信号;
16、s33、提取频域信号的频域特征,其中,频域特征包括:谱幅度均值、谱幅度重心、功率谱密度和倒谱系数;
17、s34、将时域特征和频域特征作为元素,构建时频特征向量;
18、s35、根据时频特征向量,构建时频特征矩阵,b=btb,其中,b为时频特征矩阵,b为时频特征向量,t为转置运算。
19、上述进一步地方案的有益效果为:本发明中通过奇异值特征矩阵和时频特征矩阵表达海豚原始声音的声音特征,从而减少emd原始信号的数据量。
20、进一步地,所述s4中深度学习模型包括:奇异值特征处理网络、时频特征处理网络、特征拼接单元、第一lstm单元、concat层、第二lstm单元和多个输出单元;
21、所述奇异值特征处理网络的输入端用于输入奇异值特征矩阵,其输出端与特征拼接单元的第一输入端连接;所述时频特征处理网络的输入端用于输入时频特征矩阵,其输出端与特征拼接单元的第二输入端连接;所述特征拼接单元的输出端分别与第一lstm单元中多个cell模块的输入端连接;所述concat层的输入端分别与第一lstm单元中多个cell模块的输出端连接,其输出端分别与第二lstm单元中多个cell模块的输入端连接;每个所述输出单元的输入端与第二lstm单元中一个cell模块的输出端连接,其输出端作为深度学习模型的输出端;所述第一lstm单元中每个cell模块用于输入特征拼接单元输出特征中的一个特征值;所述第二lstm单元中每个cell模块用于输入concat层的输出特征。
22、上述进一步地方案的有益效果为:本发明中设置奇异值特征处理网络和时频特征处理网络分别对奇异值特征矩阵和时频特征矩阵进行处理,实现进一步地特征提取,再采用特征拼接单元进行两个网络的特征提取和拼接,第一lstm单元中每个cell模块用于处理一个特征值,利用lstm的记忆性,使得第一lstm单元更好考虑特征拼接单元输出特征中各个特征值的关系,采用concat层对第一lstm单元的输出进行拼接成向量,输入到第二lstm单元中每个cell模块,使得第二lstm单元不仅考虑第二lstm单元中上一个cell模块的输出,同时要综合第一lstm单元的输出,提高生成海豚声音的精度。
23、进一步地,所述奇异值特征处理网络和时频特征处理网络结构相同,均包括:第一卷积块、第二卷积块、第三卷积块、第一上采样层、第二上采样层、第三上采样层、加法器a1和特征显著处理层;
24、所述第一卷积块的输入端作为奇异值特征处理网络或时频特征处理网络的输入端,其输出端分别与第一上采样层的输入端和第二卷积块的输入端连接;所述第二卷积块的输出端分别与第二上采样层的输入端和第三卷积块的输入端连接;所述第三卷积块的输出端与第三上采样层的输入端连接;所述加法器a1的输入端分别与第一上采样层的输出端、第二上采样层的输出端和第三上采样层的输出端连接,其输出端与特征显著处理层的输入端连接;所述特征显著处理层的输出端作为奇异值特征处理网络或时频特征处理网络的输出端。
25、上述进一步地方案的有益效果为:本发明中采用三个卷积块逐步提取特征,在不同深度特征处,设置上采样层进行上采样处理,丰富不同深度特征的数据量,再采用加法器a1进行融合处理,采用特征显著处理层凸出显著特征。
26、进一步地,所述特征显著处理层的表达式为:
27、,
28、其中,xi,z为特征显著处理层输出的第i个特征值,xi为特征显著处理层输入的第i个特征值,xmax为加法器a1的输出特征中最大特征值,i为正整数。
29、上述进一步地方案的有益效果为:本发明中特征显著处理层一方面能对输入的特征值进行归一化处理,另一方面能凸出显著特征,使得大的特征值与小的特征值区分更显著。
30、进一步地,所述特征拼接单元的表达式为:
31、,
32、其中,h为特征拼接单元的输出特征,maxpool为最大池化操作,avgpool为平均池化操作,xq为奇异值特征处理网络的输出特征,xs为时频特征处理网络的输出特征,为哈达玛积。
33、上述进一步地方案的有益效果为:在进行特征拼接时,采用最大池化操作和平均池化操作分别提取出最大特征和平均特征,进一步的精简特征。
34、进一步地,所述输出单元的表达式为:
35、,
36、其中,yk为第k个输出单元的输出值,hj,k为第二lstm单元中cell模块输出的第j个特征值,wj,k为hj,k的权重,bj,k为hj,k的偏置,n为第二lstm单元中cell模块输出的特征值的数量,j和k为正整数,sigmoid为激活函数。
37、上述进一步地方案的有益效果为:本发明中输出单元考虑第二lstm单元中每个cell模块输出的所有特征值,选用sigmoid的线性激活函数,输出emd估计信号上每个离散点的幅度值。
38、进一步地,所述s4中深度学习模型在训练时的损失函数为:
39、,
40、其中,l为损失函数,yk为第k个输出单元的输出值,gk为第k个标签值,多个输出值yk构成一个emd估计信号,rk为第k个训练参数,m为输出值的数量,k为正整数。
41、进一步地,所述第k个训练参数的表达式为:
42、,
43、其中,exp为以自然常数为底的指数函数。
44、上述进一步地方案的有益效果为:本发明中深度学习模型输出为多个yk,多个输出值yk构成一个emd估计信号,由于本发明中深度学习模型使用了两层lstm,lstm训练时间长,因此,为了缩短训练时间,本发明中设置训练参数,增强损失函数,加快深度学习模型训练速度。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21977.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。