视频 - 文本跨模态检索中的时序特征对齐与语义关联算法
摘要
视频-文本跨模态检索是多模态理解的重要任务,现有方法普遍存在时序特征错位、语义关联不精准等问题。针对上述缺陷,构建多尺度时序特征对齐与分层语义关联建模方法,通过时序片段提取、动态偏移校正、共享语义空间构建、细粒度关系感知与时序一致性融合实现模态匹配优化。实验结果表明,该方法有效降低时序对齐误差,提升检索召回率,在时序对齐精度与语义关联准确性上均具备明显优势。
关键词
视频-文本检索;时序特征对齐;语义关联;跨模态表征;特征融合
参考
董闯,栗伟,巴聪,等. 基于联合嵌入空间的视频文本检索研究综述[J].中国图象图形学报,2025,30(05):1220-1237.
王盛,宋向辉,胡世雄,等. 一种基于交叉注意力机制的跨模态视频-文本检索模型[J].安全、健康和环境,2025,25(03):20-26.
习怡萌,刘立波,邓箴,等. 多级跨模态对齐的文本检索视频方法研究[J].中文信息学报,2025,39(02):111-122.
习怡萌,邓箴,刘倩,等. 跨模态信息融合的视频-文本检索[J].计算机应用,2025,45(08):2448-2456.
涂荣成,毛先领,孔伟杰,等. 基于CLIP生成多事件表示的视频文本检索方法[J].计算机研究与发展,2023,60(09):2169-2179.
DOI: http://dx.doi.org/10.12345/bdai.v7i3.38187
Refbacks
- 当前没有refback。

此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。





