オプティカルフローは、教師なしビデオオブジェクトセグメンテーション(UVOS)を進めるための、簡単に想像できる貴重な手がかりです。以前の方法のほとんどは、UVOS設定でターゲットオブジェクトをセグメント化するためのモーション機能と外観機能を直接抽出して融合します。ただし、オプティカルフローは本質的に、連続するフレーム間のすべてのピクセルの瞬間的な速度であるため、モーションフィーチャは、対応するフレーム間の主要なオブジェクトと適切に位置合わせされません。上記の課題を解決するために、我々は、外観と動きの特徴の位置合わせのための簡潔で実用的かつ効率的なアーキテクチャ、吹き替え階層的特徴の位置合わせネットワーク(HFAN)を提案します。具体的には、HFANの主なメリットは、シーケンシャルなFeature AlignMent(FAM)モジュールとFeature AdaptaTion(FAT)モジュールです。これらは、外観とモーションの機能を階層的に処理するために活用されます。 FAMは、外観とモーションの両方の機能を、それぞれプライマリオブジェクトのセマンティック表現に合わせることができます。さらに、FATは、クロスモーダル機能間の望ましいトレードオフを実現するために、外観とモーション機能の適応融合のために明示的に設計されています。広範な実験により、提案されたHFANの有効性が実証されました。これは、DAVIS-16で新しい最先端のパフォーマンスに到達し、88.7 JF平均を達成します。つまり、公開された最良の結果よりも3.5%向上します。
Optical flow is an easily conceived and precious cue for advancing unsupervised video object segmentation (UVOS). Most of the previous methods directly extract and fuse the motion and appearance features for segmenting target objects in the UVOS setting. However, optical flow is intrinsically an instantaneous velocity of all pixels among consecutive frames, thus making the motion features not aligned well with the primary objects among the corresponding frames. To solve the above challenge, we propose a concise, practical, and efficient architecture for appearance and motion feature alignment, dubbed hierarchical feature alignment network (HFAN). Specifically, the key merits in HFAN are the sequential Feature AlignMent (FAM) module and the Feature AdaptaTion (FAT) module, which are leveraged for processing the appearance and motion features hierarchically. FAM is capable of aligning both appearance and motion features with the primary object semantic representations, respectively. Further, FAT is explicitly designed for the adaptive fusion of appearance and motion features to achieve a desirable trade-off between cross-modal features. Extensive experiments demonstrate the effectiveness of the proposed HFAN, which reaches a new state-of-the-art performance on DAVIS-16, achieving 88.7 JF Mean, i.e., a relative improvement of 3.5% over the best published result.