本文提出动态尺度位置嵌入(Dynamic Scale Position Embedding, DSPE)方法,通过动态调整视频帧的位置嵌入(Position Embedding)使单一Transformer能够理解多尺度时序语义,显著提升跨模态(Cross-Modal)对齐能力。该方法在四个主流数据集(MSR-VTT、LSMDC等)的文本-视频检索与 ...