开放期刊系统

视频 - 文本跨模态检索中的时序特征对齐与语义关联算法

彬彬 张(网络空间部队信息工程大学,中国)
思堂 任(网络空间部队信息工程大学,中国)

摘要

视频-文本跨模态检索是多模态理解的重要任务,现有方法普遍存在时序特征错位、语义关联不精准等问题。针对上述缺陷,构建多尺度时序特征对齐与分层语义关联建模方法,通过时序片段提取、动态偏移校正、共享语义空间构建、细粒度关系感知与时序一致性融合实现模态匹配优化。实验结果表明,该方法有效降低时序对齐误差,提升检索召回率,在时序对齐精度与语义关联准确性上均具备明显优势。

关键词

视频-文本检索;时序特征对齐;语义关联;跨模态表征;特征融合

参考

董闯,栗伟,巴聪,等. 基于联合嵌入空间的视频文本检索研究综述[J].中国图象图形学报,2025,30(05):1220-1237.

王盛,宋向辉,胡世雄,等. 一种基于交叉注意力机制的跨模态视频-文本检索模型[J].安全、健康和环境,2025,25(03):20-26.

习怡萌,刘立波,邓箴,等. 多级跨模态对齐的文本检索视频方法研究[J].中文信息学报,2025,39(02):111-122.

习怡萌,邓箴,刘倩,等. 跨模态信息融合的视频-文本检索[J].计算机应用,2025,45(08):2448-2456.

涂荣成,毛先领,孔伟杰,等. 基于CLIP生成多事件表示的视频文本检索方法[J].计算机研究与发展,2023,60(09):2169-2179.



DOI: http://dx.doi.org/10.12345/bdai.v7i3.38187

Refbacks

  • 当前没有refback。
版权所有(c)2026 彬彬 张, 思堂 任 Creative Commons License
此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。
  • :+65-62233778 QQ:2249355960 :contact@s-p.sg