Text-Guided Visual Representation Optimization for Sensor-Acquired Video Temporal Grounding

Video temporal grounding (VTG) aims to localize a semantically relevant temporal segment within an untrimmed video based on a natural language query. The task continues to face challenges arising from cross-modal semantic misalignment, which is largely attributed to redundant visual content in senso...

Full description

Saved in:

Bibliographic Details
Main Authors:	Yun Tian, Xiaobo Guo, Jinsong Wang, Xinyue Liang
Format:	Article
Language:	English
Published:	MDPI AG 2025-07-01
Series:	Sensors
Subjects:	video temporal grounding cross-modal learning cross-attention contrastive learning representation optimization
Online Access:	https://www.mdpi.com/1424-8220/25/15/4704
Tags:	Add Tag No Tags, Be the first to tag this record!

Be the first to leave a comment!

Text-Guided Visual Representation Optimization for Sensor-Acquired Video Temporal Grounding

Similar Items