arXiv reaDer
少数ショットのビデオオブジェクトセグメンテーションのための時間的トランスダクティブ推論
Temporal Transductive Inference for Few-Shot Video Object Segmentation
数ショットのビデオオブジェクトセグメンテーション(FS-VOS)は、初期トレーニングでは見られなかったクラスのいくつかのラベル付きの例を使用して、ビデオフレームをセグメント化することを目的としています。この論文では、数ショットの推論中にラベルのないビデオフレームの時間的一貫性を活用する、シンプルで効果的な時間的トランスダクティブ推論(TTI)アプローチを紹介します。私たちのアプローチの鍵は、グローバルとローカルの両方の時間的制約を使用することです。グローバル制約の目的は、画像シーケンス全体で新規クラスの一貫した線形分類器を学習することですが、ローカル制約は、各フレームの前景/背景領域の比率がローカル時間ウィンドウ全体でコヒーレントになるように強制します。これらの制約は、トランスダクティブ推論中に時空間レギュラライザーとして機能し、時間的コヒーレンスを高め、数ショットのサポートセットでの過剰適合を減らします。経験的に、私たちのモデルは、YouTube-VISでのユニオンの平均交差点に関して、最先端のメタ学習アプローチを2.8%上回っています。さらに、徹底的にラベル付けされた(つまり、現在利用可能なものとは異なり、すべてのオブジェクトオカレンスにラベルが付けられた)改善されたベンチマークを導入し、トレーニングセットとテストセット間のデータ分散シフトを対象とするより現実的な評価パラダイムを提示します。私たちの経験的結果と詳細な分析は、時間的コヒーレンスを改善し、特定の過剰適合シナリオを克服するために提案された時空間正規化装置の追加の利点を確認します。
Few-shot video object segmentation (FS-VOS) aims at segmenting video frames using a few labelled examples of classes not seen during initial training. In this paper, we present a simple but effective temporal transductive inference (TTI) approach that leverages temporal consistency in the unlabelled video frames during few-shot inference. Key to our approach is the use of both global and local temporal constraints. The objective of the global constraint is to learn consistent linear classifiers for novel classes across the image sequence, whereas the local constraint enforces the proportion of foreground/background regions in each frame to be coherent across a local temporal window. These constraints act as spatiotemporal regularizers during the transductive inference to increase temporal coherence and reduce overfitting on the few-shot support set. Empirically, our model outperforms state-of-the-art meta-learning approaches in terms of mean intersection over union on YouTube-VIS by 2.8%. In addition, we introduce improved benchmarks that are exhaustively labelled (i.e. all object occurrences are labelled, unlike the currently available), and present a more realistic evaluation paradigm that targets data distribution shift between training and testing sets. Our empirical results and in-depth analysis confirm the added benefits of the proposed spatiotemporal regularizers to improve temporal coherence and overcome certain overfitting scenarios.
updated: Sun Jul 16 2023 13:31:17 GMT+0000 (UTC)
published: Sun Mar 27 2022 14:08:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト