开放期刊系统

基于网格剖分组织与多模态深度学习的遥感影像自然语言智能检索

伏虎 任(100871;上海临港北京大学国际科技创新中心,中国;)
林 李(上海临港北京大学国际科技创新中心,中国;闽都创新实验室时空大数据中心,中国;)
子聪 杜(中科云遥(深圳)科技有限公司,中国;)
锦华 董(上海临港北京大学国际科技创新中心,中国;)
毅 黄(福建大数据一级开发有限公司,中国;)

摘要

针对遥感影像多时相、多模态检索中存在的语义鸿沟、操作复杂及时序分析低效三大难题,本文提出一种融合网格剖分组织与多模态深度学习的遥感影像自然语言智能检索框架,主要包括:构建多尺度时空网格索引,通过全球离散网格系统实现影像数据高效组织;提出遥感专用多模态深度学习模型,在RSICD和RSITMD数据集的图文匹配准确率有显著提升;设计自然语言指令解析引擎,支持复杂时序查询,自动化解析准确率大幅提高。

关键词

遥感影像检索;多模态深度学习;网格剖分;Remote CLIP模型;自然语言处理

全文:

PDF

参考

程承旗,任伏虎等著. 空间信息剖分组织导论[M]. 科学出版社.2012

李林,程承旗等. 北斗网格码:数字孪生城市CIM时空网格框架[J]. 信息通信技术与政策,2021,30(11):1-5.

张程皓. 基于CLIP预训练模型的跨模态哈希检索在遥感图像上的研究及应用[D]. 重庆师范大学,2023

Brown F.C. et al. AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data. arXiv:2507.22291 [cs.CV] [Google Scholar]

Devlin, J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv 2018, arXiv:1810.04805. [Google Scholar]



DOI: http://dx.doi.org/10.12345/bdai.v6i4.30575

Refbacks

  • 当前没有refback。
版权所有(c)2025 伏虎 任, 林 李, 子聪 杜, 锦华 董, 毅 黄 Creative Commons License
此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。
  • :+65-62233778 QQ:2249355960 :contact@s-p.sg