arXiv reaDer
拡張2D-TAN:人間中心の時空間ビデオ接地のための2段階アプローチ
Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal Video Grounding
言語ベースの人間中心の時空間ビデオグラウンディング(HC-STVG)タスクの問題に取り組むための効果的な2段階のアプローチを提案します。最初の段階では、与えられた説明に対応するターゲットモーメントを一時的に接地するために、拡張2D時間隣接ネットワーク(拡張2D-TAN)を提案します。主に、元の2D-TANを2つの側面から改善します。最初に、元の最大プーリングを置き換えて、クリップレベルの表現を集約するために時間コンテキスト認識のBi-LSTM集約モジュールが開発されます。次に、トレーニングフェーズでランダム連結拡張(RCA)メカニズムを採用することを提案します。第2段階では、事前トレーニング済みのMDETRモデルを使用して、言語クエリを介してフレームごとのバウンディングボックスを生成し、一連の手作りのルールを設計して、接地されたモーメント内の各フレームに対してMDETRによって出力される最適なバウンディングボックスを選択します。
We propose an effective two-stage approach to tackle the problem of language-based Human-centric Spatio-Temporal Video Grounding (HC-STVG) task. In the first stage, we propose an Augmented 2D Temporal Adjacent Network (Augmented 2D-TAN) to temporally ground the target moment corresponding to the given description. Primarily, we improve the original 2D-TAN from two aspects: First, a temporal context-aware Bi-LSTM Aggregation Module is developed to aggregate clip-level representations, replacing the original max-pooling. Second, we propose to employ Random Concatenation Augmentation (RCA) mechanism during the training phase. In the second stage, we use pretrained MDETR model to generate per-frame bounding boxes via language query, and design a set of hand-crafted rules to select the best matching bounding box outputted by MDETR for each frame within the grounded moment.
updated: Sun Jun 20 2021 06:35:40 GMT+0000 (UTC)
published: Sun Jun 20 2021 06:35:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト