arXiv reaDer
セマンティクスと時間的対応の融合: ビデオでの自己教師ありオブジェクト中心学習
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos
自己教師あり手法は、高レベルの意味論と低レベルの時間対応関係の学習において目覚ましい進歩を示しています。これらの結果に基づいて、さらに一歩進んで、これら 2 つの機能を統合してオブジェクト中心の表現を強化する可能性を探ります。私たちの予備実験では、クエリ スロット アテンションが RGB 特徴マップからさまざまな意味論的コンポーネントを抽出できる一方、ランダム サンプリング ベースのスロット アテンションはフレーム間の時間的対応キューを活用してインスタンスの識別を支援できることを示しています。これを動機として、融合された意味論的特徴と対応マップに加えて、新しい意味論を意識したマスクされたスロット アテンションを提案します。これは、共有学習可能なガウス分布のセットを備えた 2 つのスロット アテンション ステージで構成されます。最初の段階では、平均ベクトルをスロット初期化として使用して、潜在的なセマンティクスを分解し、反復的な注意を通じてセマンティック セグメンテーション マスクを生成します。第 2 段階では、セマンティクスごとに、対応するガウス分布からスロットをランダムにサンプリングし、セマンティクス領域内でマスクされた特徴の集約を実行して、インスタンスの識別に時間的対応パターンを活用します。時間的に一貫したオブジェクト中心の表現を促進するために、自己監視として意味論的およびインスタンスレベルの時間的一貫性を採用します。私たちのモデルは、セマンティック構造を持つ複数のオブジェクト インスタンスを効果的に識別し、教師なしビデオ オブジェクトの発見において有望な結果をもたらします。さらに、高密度ラベル伝播タスクで最先端のパフォーマンスを実現し、オブジェクト中心の分析の可能性を実証します。コードは https://github.com/shvdiwnkozbw/SMTC でリリースされています。
Self-supervised methods have shown remarkable progress in learning high-level semantics and low-level temporal correspondence. Building on these results, we take one step further and explore the possibility of integrating these two features to enhance object-centric representations. Our preliminary experiments indicate that query slot attention can extract different semantic components from the RGB feature map, while random sampling based slot attention can exploit temporal correspondence cues between frames to assist instance identification. Motivated by this, we propose a novel semantic-aware masked slot attention on top of the fused semantic features and correspondence maps. It comprises two slot attention stages with a set of shared learnable Gaussian distributions. In the first stage, we use the mean vectors as slot initialization to decompose potential semantics and generate semantic segmentation masks through iterative attention. In the second stage, for each semantics, we randomly sample slots from the corresponding Gaussian distribution and perform masked feature aggregation within the semantic area to exploit temporal correspondence patterns for instance identification. We adopt semantic- and instance-level temporal consistency as self-supervision to encourage temporally coherent object-centric representations. Our model effectively identifies multiple object instances with semantic structure, reaching promising results on unsupervised video object discovery. Furthermore, we achieve state-of-the-art performance on dense label propagation tasks, demonstrating the potential for object-centric analysis. The code is released at https://github.com/shvdiwnkozbw/SMTC.
updated: Sat Aug 19 2023 09:12:13 GMT+0000 (UTC)
published: Sat Aug 19 2023 09:12:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト