技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态行为信息的大熊猫配种时期预测方法  >  正文

一种基于多模态行为信息的大熊猫配种时期预测方法

  • 国知局
  • 2024-07-31 23:15:38

本发明属于濒危动物保护领域,具体涉及一种基于多模态行为信息的大熊猫配种时期预测方法。

背景技术:

1、大熊猫因其非凡的文化、科学、经济价值,一直是全球动物保护研究的重点。在大熊猫繁育保护工作中,需要选择合适的配种时机,因为雌性大熊猫在一年中只有一次排卵机会且其能接受的自然交配时间非常短,最短的只有几个小时,如果不能选择恰当的配种时机,将不能促进雌雄成功交配,甚至会导致动物间激烈的打斗致使动物伤亡。

2、理论的最佳配种时机是雌性大熊猫尿雌激素激增后,促黄体生成素(lh)激素峰值前10-28小时内。所以当前阶段,专家通过观察大熊猫的生殖器外观变化和激素水平变化来判断配种时机。这要求专家时刻注意大熊猫行为,经常性的收集发情期大熊猫的尿液或血液,用实时追踪血液或尿液中的激素水平波动的办法来判断大熊猫受否适合配种。该方法严重依赖大熊猫的排泄物,为了减少尿液样本被污染程度又需要大量的人力资源监控并不可避免的扰乱大熊猫的日常生活,此外激素测试的延迟性也为选择合适配种时机带来困难。总体而言,目前用于预测大熊猫配种时期的方法无法在人工工作量小、不对大熊猫日常生活产生干扰的情况下得出相对准确的预测。

技术实现思路

1、本发明提供一种基于多模态行为信息的大熊猫配种时期预测方法。采用摄像头录制的多模态视频为输入,通过深度学习模型得到大熊猫一段时间内的行为数据,然后预测准确的配种时期,能够减少人工的工作量和对大熊猫日常生活产生的干扰,推动大熊猫保护工作的发展。

2、本发明的技术方案是:

3、一种基于多模态行为信息的大熊猫配种时期预测方法,如图1所示,包括以下步骤:

4、s1、定义声音、视频两个模态的大熊猫行为,采集雌性大熊猫处于发情期的视频并分模态标注得到多模态数据集。具体的:

5、s11、定义不同模态下的大熊猫行为,其中包括视频模态下的大熊猫动作行为和声音模态下的大熊猫吼叫行为;

6、s12、分离录制视频内的视频流和声音流,得到由图像帧构成的视频流数据和音频段构成的声音流数据。对于视频流数据,标注大熊猫在各帧中的空间位置和行为标签;对于声音流数据,标注每个音频段所属的吼叫种类。

7、s2、设计多模态行为特征提取模块,如图2所示,包括:

8、s21、视频流,使用双流网络,通过3d cnn提取输入的连续视频帧中的时间信息,通过2d cnn提取输入关键帧的空间信息:

9、f2d=φ2d(ik),f3d=φ3d(is)

10、变换φ2d(·)和φ3d(·)分别表示2d cnn和3d cnn,ik表示视频输入的关键帧,is表示视频输入的帧序列,表示时间特征,表示空间特征。b表示batch大小,cs和ct分别表示空间特征和时间特征的通道维度,h和w表示特征图的长和宽。接下采用进行通道融合:

11、

12、conv1(·)表示卷积核大小为1x1的卷积层。conv3(·)表示卷积核大小为3x3的卷积层,所述通道融合即把时间特征f3d和空间特征f2d沿通道维度进行拼接,然后使用一层1x1卷积和3x3卷积进行处理,输出融合后的特征通道融合之后先对融合后的特征做拉平操作得到向量然后让f′经过自注意力层,自注意力层的计算的公式如下:

13、q=k=v=f′

14、w=softmax(qkt)

15、

16、f″=f+αfa

17、其中,q为query、k为key、v为value、w为权重因子其代表了以通道为区分,f′中各个通道之间的相似程度。α会决定将有多少的注意力信息被保留下来,它初始化的值为0,是一个可学习的参数。经过通道上的注意力机制的处理后的f″,更好地融合了3d cnn和2dcnn输出的两种不同的特征信息。f″通过分类头得到视频模态下大熊猫行为的分类结果。

18、s22、声音流,先通过一个一维卷积层融合输入的音频信息并统一声波向量的维度,然后通过连续的多尺度特征提取模处理音频所包含的多尺度特征,最后通过上下文相关池化和aam(additive angular margin)-softmax得到准确的大熊猫吼叫行为种类。

19、s23、综合视频流和声音流得到的分类结果,得到多模态行为嵌入向量。

20、s3、基于多模态数据集训练多模态行为特征提取模块,检测一定时间窗口内的大熊猫视频得到行为变化数据。具体而言,若观察窗口为t天,则得到的大熊猫行为变化向量为:

21、x=[x1,x2,…xt……,xt]

22、其中是上一步得到的多模态行为嵌入向量,n为界定的大熊猫行为种类个数,xt中个元素的值为各行为时长与输入视频时长的比值。

23、s4、设计时间序列预测模块。如图3所示,对于输入的大熊猫行为变化向量x,首先经过一个一维卷积层抽取行为变化信息,然后通过三个lstm层,最后再经过一个自注意力操作和分类头得到分类结果。lstm层的计算公式如下:

24、ft=σ(wf·[ht-1;xt]+bf)

25、it=σ(wi·[ht-1;xt]+bi)

26、

27、

28、ot=σ(wo·[ht-1;xt]+bo)

29、ht=ot*tanh(ct)

30、ft、it、ct、ot分别表示表示遗忘门、输入门、候选记忆、记忆门和输出门,σ(·)表示sigmiod函数,wf、wi、wc、wo分别表示lstm单元的遗忘门权值矩阵、输入门权值矩阵、记忆状态权值矩阵和输出门权值矩阵,bf,bi,bc,bo为对应的偏置矩阵,ht-1为上一时刻的隐藏层输出,ht为当前时刻的隐藏层输出,tanh(·)为双曲正切函数。

31、s5、基于行为变化数据训练时间序列预测模块,得到大熊猫配种时期的预测结果。

32、本发明将观察窗口的最后一天距离实际交配日期的时间作为配种时期预测的标签,采用平均绝对误差(mae,mean absolute error),均方根误差(rmse,root mean squareerror)和r2决定系数来评价预测效果,其计算公式如下:

33、

34、

35、

36、其中表示模型的预测值,yi表示真实标签,表示标签的平均值。mae和rmse反映模型预测的配种日期与实际配种日期之间的差异,r2反映模型的拟合优度。

37、本发明的有益效果为:本发明提供一种基于多模态行为识别和时间序列分析的大熊猫配种时期预测方法。将音频信息纳入到行为变化信息的考量中,可以提高预测的准确度与鲁棒性;对于视频行为提取模块:采用3d cnn提取时间信息,2d cnn提取空间信息,实现了对于精度与实时性的平衡,通道融合加自注意力机制较好的融合了视频模态所蕴含的时间信息和空间信息,提升了视频行为预测的准确度;本发明仅需少量人工,能够全天候运行且对大熊猫日常生活产生的干扰很小。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196670.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。