arXiv reaDer
ビデオ オブジェクト セグメンテーションのための堅牢で効率的なメモリ ネットワーク
Robust and Efficient Memory Network for Video Object Segmentation
この論文では、半教師付きビデオ オブジェクト セグメンテーション (VOS) を研究するために、REMN と呼ばれる堅牢で効率的なメモリ ネットワークを提案します。メモリベースの方法は、最近、クエリとメモリの間で非ローカル ピクセル単位のマッチングを実行することにより、優れた VOS パフォーマンスを達成しました。ただし、これらの方法には 2 つの制限があります。 1) 非ローカル マッチングにより、バックグラウンドでディストラクタ オブジェクトが正しくセグメント化されない可能性があります。 2) 一時的な冗長性が高いメモリ機能は、かなりのコンピューティング リソースを消費します。制限 1 では、前景オブジェクトの機能を前のマスクで強化することにより、背景の気晴らしに取り組むローカル アテンション メカニズムを導入します。制限 2 については、前景オブジェクトの変化に応じてメモリ機能を更新するかどうかを最初に適応的に決定し、一時的な冗長性を減らします。次に、軽量で微分可能なソフト変調ゲートを使用して、時間次元で削除する必要があるメモリ機能の数を決定する動的メモリ バンクを採用します。実験では、当社の REMN が DAVIS 2017 で J\&F スコア 86.3%、YouTube-VOS 2018 で G オーバー平均 85.5% という最先端の結果を達成していることが実証されています。さらに、私たちのネットワークは 25+ FPS の高い推論速度を示し、比較的少ないコンピューティング リソースを使用します。
This paper proposes a Robust and Efficient Memory Network, referred to as REMN, for studying semi-supervised video object segmentation (VOS). Memory-based methods have recently achieved outstanding VOS performance by performing non-local pixel-wise matching between the query and memory. However, these methods have two limitations. 1) Non-local matching could cause distractor objects in the background to be incorrectly segmented. 2) Memory features with high temporal redundancy consume significant computing resources. For limitation 1, we introduce a local attention mechanism that tackles the background distraction by enhancing the features of foreground objects with the previous mask. For limitation 2, we first adaptively decide whether to update the memory features depending on the variation of foreground objects to reduce temporal redundancy. Second, we employ a dynamic memory bank, which uses a lightweight and differentiable soft modulation gate to decide how many memory features need to be removed in the temporal dimension. Experiments demonstrate that our REMN achieves state-of-the-art results on DAVIS 2017, with a J\&F score of 86.3% and on YouTube-VOS 2018, with a G over mean of 85.5%. Furthermore, our network shows a high inference speed of 25+ FPS and uses relatively few computing resources.
updated: Mon Apr 24 2023 06:19:21 GMT+0000 (UTC)
published: Mon Apr 24 2023 06:19:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト