一种基于自然语言描述的遥感图像检索方法、设备及介质
- 国知局
- 2024-11-06 14:55:42
本技术涉及遥感图像检索领域,尤其涉及一种基于自然语言描述的遥感图像检索方法、设备及介质。
背景技术:
1、遥感图像检索系统是一种利用计算机技术和算法,从大量遥感图像数据中自动检索出与用户查询条件相匹配的图像的系统。其目的是通过对遥感图像数据进行有效的组织、管理和查询,快速、准确地找到所需的图像信息。遥感图像检索系统广泛应用于资源监测、环境保护、灾害应急、城市规划、农业管理等领域。在遥感图像检索系统中,检索方法起着核心作用,决定了系统的效率、准确性和用户体验。
2、遥感图像主要检索方法包括:基于空间坐标的检索、基于视觉特征检索以及基于语义特征的检索。
3、基于空间坐标检索和基于视觉特征的遥感图像检索方法,都通过图像本身的纹理、颜色、形状和局部特征、以及地理位置进行检索。
4、基于语义特征的检索使用深度学习方法提取图像的高层次特征,这些特征可以表示图像的语义信息,如不同类型的地物(建筑物、道路、森林、农田等),检索系统根据用户输入地物类别进行遥感图像检索,如中国专利cn113468371a涉及一种实现自然语句图像检索的方法。基于语义特征的检索在处理多样化的语义信息时,存在不足,系统可能难以准确捕捉所有语义特征,在检索时可能返回多个用户感兴趣区域,需要用户再进一步筛选,该方法精度有限。
5、中国专利cn118035416a涉及一种流式问答配图方法及系统,通过构建的文本向量库和图片索引关系数据库,进行流式问答检索,得到对应的文本和图片,但这种检索并非针对遥感图像的检索,存在图片匹配准确率低的问题。
技术实现思路
1、本发明的目的在于:为了解决现有的图像检索方法,存在检索精度低且不适用于海量遥感图像的应用场景的问题,提供一种基于自然语言描述的遥感图像检索方法、设备及介质。
2、本技术的上述目的是通过以下技术方案得以实现的:
3、s1:获取遥感图像的文本描述信息,构建文本库;对文本库中的每个句子进行清洗和预处理,得到每个句子的句子id;
4、s2:通过基于bert的预训练语言模型,逐个对文本库中的句子进行向量编码转换,得到句子向量表示;
5、s3:将句子id和句子向量表一一对应进行存储,构建数据集;
6、s4:构建基于lstm网络的遥感图像检索模型;通过数据集对遥感图像检索模型进行训练;
7、s5:获取待检索遥感图像,通过训练后的遥感图像检索模型,生成待检索遥感图像的自然语言描述句子;
8、s6:将自然语言描述句子作为待检索句子;通过基于bert的预训练语言模型,在数据集中检索,得到与待检索遥感图像相似的遥感图像。
9、可选的,步骤s2包括:
10、将句子输入到基于bert的预训练语言模型,得到每个句子的词嵌入向量;
11、对词嵌入向量求平均,得到一个固定长度的句子向量表示,其中代表词嵌入,代表句子中第个词的归一化词频。
12、可选的,步骤s4包括:
13、s41:按预设比例将数据集划分为训练集、验证集和测试集;
14、s42:通过预训练的resnet50模型,提取数据集中的输入图像的视觉特征向量;
15、s43:构建词表v,将数据集的文字描述中的所有单词映射到固定长度的词嵌入向量;
16、s44:将词嵌入向量输入遥感图像检索模型进行训练,获得每个时间步的隐藏状态向量;
17、s45:将隐藏状态向量与图像视觉特征向量进行相加,得到混合向量特征;对混合向量特征进行提取和压缩,得到最终表示;通过最终表示,生成自然语言描述句子。
18、可选的,步骤s6包括:
19、s61:通过预训练语言模型,对待检索句子进行预处理;
20、s62:将预处理后的待检索句子进行分词,得到待检索句子的token id序列;
21、将token id序列输入预训练语言模型,获取待检索句子中每个词的隐藏状态向量,将待检索句子中所有词的隐藏状态向量取平均,得到待检索句子的向量表示,其中代表词嵌入,代表词的归一化词频;
22、s63:将待检索句子的向量表示与数据集中存储的句子向量表示进行匹配,计算两个句子向量之间的不相似度,确定数据集中的相似句子向量;
23、s64:根据相似句子向量的句子id,从数据集中查找得到与待检索句子对应的遥感图像。
24、可选的,步骤s61包括:
25、判断待检索句子的各个词是否在在预训练语言模型的词汇表中,若不在词汇表中,则将词替换为预设特殊标记,得到预处理后的待检索句子。
26、可选的,步骤s63包括:
27、s63a:每个待检索句子为预设个数词汇的集合,通过最小化将待检索句子移动到数据集中的待匹配句子所需的总代价,计算得到两个句子的相似度;
28、令作为词嵌入矩阵,为词汇量大小;为单词的维编码向量;
29、设和分别用归一化词袋表示的将待检索句子和待匹配句子,是单词在中出现的次数除以中单词的总数量,其中表示第个单词在中出现的次数;表示中第k个单词出现的次数;就是句子s中所有单词出现的次数和;
30、设为语义向量空间中任意两个单词的欧几里得距离,表示两个单词语义的不相似度;为单词的维编码向量;
31、引入辅助矩阵,其中,表示中单词需要转移到中单词的单词的数量;
32、将待检索句子与待匹配句子之间的距离定义为:将待检索句子s中的所有单词移动到待匹配句子的最小总代价:
33、
34、
35、
36、其中 ;表示中第个单词被完全传输到中单词的全部流量,表示中单词接收到的所有传入的流量;
37、s63b:通过计算的相似度,得到数据集中的相似句子向量。
38、一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行一种基于自然语言描述的遥感图像检索方法。
39、一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行一种基于自然语言描述的遥感图像检索方法。
40、本技术提供的技术方案带来的有益效果是:
41、1.通过基于遥感图像检索模型定义遥感图像的自然语言描述;将每个图像的自然语言描述进行编码,将每个描述的语义内容映射到向量空间中并存储;当用户输入遥感图像进行图像检索时,将遥感图像的描述语言进行相同的编码,然后与存储的向量进行匹配完成图像检索工作。解决海量遥感图像检索中用户使用技术门槛高以及检索精度低的问题。同时支持图像以及文本的检索方式,当用户输入的文本与数据库中的数据有很大的差距时,采用预训练语言模型,生成语义更加丰富的向量表示,转换成向量进行检索,提高检索的准确性。
42、2.将词嵌入向量输入遥感图像检索模型进行训练,获得每个时间步的隐藏状态向量;将隐藏状态向量与图像视觉特征向量进行相加,得到混合向量特征;对混合向量特征进行提取和压缩,得到最终表示;通过最终表示,生成自然语言描述句子。采用多模态生成自然语言描述句子,是自然语言描述句子的生成更加准确。
43、3.采用不相似度计算,可以更好的捕捉词语之间的语义相关性,从而检索出更为相似的遥感图像。
本文地址:https://www.jishuxx.com/zhuanli/20241106/324686.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。