arXiv reaDer
ビデオオブジェクトのセグメンテーションをよりよく学ぶための学習
Learning to Learn Better for Video Object Segmentation
最近、共同学習フレームワーク (JOINT) は、マッチング ベースの変換推論とオンライン誘導学習を統合して、正確で堅牢な半教師付きビデオ オブジェクト セグメンテーション (SVOS) を実現します。ただし、マスクの埋め込みをラベルとして使用して、2 つのブランチでターゲット フィーチャの生成をガイドすることにより、ターゲットの表現が不十分になり、パフォーマンスが低下する可能性があります。さらに、2 つの異なるブランチのターゲット機能を単純に追加して 1 つの主要なブランチの悪影響を回避するのではなく、それらを合理的に融合する方法は調査されていません。このホワイト ペーパーでは、LLB と呼ばれる、SVOS の Learning to Learn Better (LLB) ターゲット機能を強調する新しいフレームワークを提案します。ここで、これらの問題に対処するための識別ラベル生成モジュール (DLGM) と適応融合モジュールを設計します。技術的には、DLGM はターゲット マスクの代わりにバックグラウンド フィルター処理されたフレームを入力として受け取り、軽量のエンコーダーを採用してターゲットの特徴を生成します。これは、オンラインの少数ショット学習器のラベルおよびトランスフォーマーのデコーダーの値として機能します。 2 つのブランチをガイドして、より識別可能なターゲット表現を学習します。アダプティブ フュージョン モジュールは、各ブランチの学習可能なゲートを維持します。これにより、要素ごとの特徴表現が再評価され、各ブランチの適応量のターゲット情報が融合されたターゲット フィーチャに流れて、1 つのブランチが支配的になり、ターゲット フィーチャが作成されなくなります。ディストラクタに対してより堅牢です。公開ベンチマークでの広範な実験は、提案された LLB メソッドが最先端のパフォーマンスを達成することを示しています。
Recently, the joint learning framework (JOINT) integrates matching based transductive reasoning and online inductive learning to achieve accurate and robust semi-supervised video object segmentation (SVOS). However, using the mask embedding as the label to guide the generation of target features in the two branches may result in inadequate target representation and degrade the performance. Besides, how to reasonably fuse the target features in the two different branches rather than simply adding them together to avoid the adverse effect of one dominant branch has not been investigated. In this paper, we propose a novel framework that emphasizes Learning to Learn Better (LLB) target features for SVOS, termed LLB, where we design the discriminative label generation module (DLGM) and the adaptive fusion module to address these issues. Technically, the DLGM takes the background-filtered frame instead of the target mask as input and adopts a lightweight encoder to generate the target features, which serves as the label of the online few-shot learner and the value of the decoder in the transformer to guide the two branches to learn more discriminative target representation. The adaptive fusion module maintains a learnable gate for each branch, which reweighs the element-wise feature representation and allows an adaptive amount of target information in each branch flowing to the fused target feature, thus preventing one branch from being dominant and making the target feature more robust to distractor. Extensive experiments on public benchmarks show that our proposed LLB method achieves state-of-the-art performance.
updated: Mon Dec 05 2022 09:10:34 GMT+0000 (UTC)
published: Mon Dec 05 2022 09:10:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト