ビデオモーメント検索は、トリミングされていないビデオ内の特定の言語記述に対応する特定の時間セグメントを識別するための効率的かつ一般化されたソリューションを追求します。この目標を達成するために、私たちは MomentDiff と呼ばれる生成拡散ベースのフレームワークを提供します。これは、ランダムな閲覧から段階的な位置特定までの典型的な人間の検索プロセスをシミュレートします。具体的には、まず実際のスパンをランダム ノイズに拡散し、テキストとビデオの類似性を利用して、ランダム ノイズを元のスパンにノイズ除去する方法を学習します。これにより、モデルは任意のランダムな位置から実際の瞬間へのマッピングを学習できるようになり、ランダムな初期化からセグメントを特定できるようになります。トレーニングが完了すると、MomentDiff はランダムな時間セグメントを初期推定としてサンプリングし、それらを反復的に調整して正確な時間境界を生成できます。識別的な作業(たとえば、学習可能な提案やクエリに基づく)とは異なり、ランダムに初期化されたスパンを持つ MomentDiff は、データセットからの時間的位置のバイアスに抵抗することができます。時間的位置バイアスの影響を評価するために、Charades-STA-Len と Charades-STA-Mom という名前の位置分布シフトを持つ 2 つのアンチバイアス データセットを提案します。実験結果は、私たちの効率的なフレームワークが 3 つの公開ベンチマークで常に最先端の手法を上回っており、提案されたアンチバイアス データセットで優れた一般化と堅牢性を示していることを示しています。コード、モデル、およびアンチバイアス評価データセットは、https://github.com/IMCCretrieval/MomentDiff で入手できます。
Video moment retrieval pursues an efficient and generalized solution to identify the specific temporal segments within an untrimmed video that correspond to a given language description. To achieve this goal, we provide a generative diffusion-based framework called MomentDiff, which simulates a typical human retrieval process from random browsing to gradual localization. Specifically, we first diffuse the real span to random noise, and learn to denoise the random noise to the original span with the guidance of similarity between text and video. This allows the model to learn a mapping from arbitrary random locations to real moments, enabling the ability to locate segments from random initialization. Once trained, MomentDiff could sample random temporal segments as initial guesses and iteratively refine them to generate an accurate temporal boundary. Different from discriminative works (e.g., based on learnable proposals or queries), MomentDiff with random initialized spans could resist the temporal location biases from datasets. To evaluate the influence of the temporal location biases, we propose two anti-bias datasets with location distribution shifts, named Charades-STA-Len and Charades-STA-Mom. The experimental results demonstrate that our efficient framework consistently outperforms state-of-the-art methods on three public benchmarks, and exhibits better generalization and robustness on the proposed anti-bias datasets. The code, model, and anti-bias evaluation datasets are available at https://github.com/IMCCretrieval/MomentDiff.