arXiv reaDer
教師なしビデオマルチオブジェクトセグメンテーションのためのターゲット認識オブジェクト検出と関連付け
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation
このホワイトペーパーでは、教師なしビデオのマルチオブジェクトセグメンテーションのタスクについて説明します。現在のアプローチは、2段階のパラダイムに従います。1)事前にトレーニングされたマスクR-CNNを使用してオブジェクトの提案を検出し、2)再識別手法を使用して時間的関連付けの一般的な特徴マッチングを実行します。ただし、両方の段階で広く使用されている一般的な機能は、見えないオブジェクトの特性評価には信頼性がなく、一般化が不十分になります。これに対処するために、より正確で効率的な時空間セグメンテーションのための新しいアプローチを紹介します。特に、インスタンスの識別に対処するために、前景領域の推定とインスタンスのグループ化を1つのネットワークに組み合わせ、さらに各フレームをセグメント化するための時間的ガイダンスを導入して、より正確なオブジェクト検出を可能にすることを提案します。時間的関連付けについては、現在のビデオオブジェクトセグメンテーションアーキテクチャを識別可能な外観モデルで補完し、よりきめ細かいターゲット固有の情報をキャプチャできます。インスタンス識別ネットワークからのオブジェクト提案を前提として、正確なセグメンテーションを実現するために3つの重要な戦略が採用されています。1)メモリ拡張外観モデルを使用したターゲット固有の追跡。 2)提案の可能なトラックレットを追跡するためのターゲットにとらわれない検証。 3)検証済みセグメントを使用した適応メモリ更新。 DAVIS_17とYouTube-VISで提案されたアプローチを評価し、その結果は、セグメンテーションの精度と推論速度の両方で最先端の方法よりも優れていることを示しています。
This paper addresses the task of unsupervised video multi-object segmentation. Current approaches follow a two-stage paradigm: 1) detect object proposals using pre-trained Mask R-CNN, and 2) conduct generic feature matching for temporal association using re-identification techniques. However, the generic features, widely used in both stages, are not reliable for characterizing unseen objects, leading to poor generalization. To address this, we introduce a novel approach for more accurate and efficient spatio-temporal segmentation. In particular, to address instance discrimination, we propose to combine foreground region estimation and instance grouping together in one network, and additionally introduce temporal guidance for segmenting each frame, enabling more accurate object discovery. For temporal association, we complement current video object segmentation architectures with a discriminative appearance model, capable of capturing more fine-grained target-specific information. Given object proposals from the instance discrimination network, three essential strategies are adopted to achieve accurate segmentation: 1) target-specific tracking using a memory-augmented appearance model; 2) target-agnostic verification to trace possible tracklets for the proposal; 3) adaptive memory updating using the verified segments. We evaluate the proposed approach on DAVIS_17 and YouTube-VIS, and the results demonstrate that it outperforms state-of-the-art methods both in segmentation accuracy and inference speed.
updated: Sat Apr 10 2021 14:39:44 GMT+0000 (UTC)
published: Sat Apr 10 2021 14:39:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト