arXiv reaDer
モーションガイドトークンからのオブジェクト発見
Object Discovery from Motion-Guided Tokens
オブジェクトの検出 (手動でラベルを付けずに背景からオブジェクトを分離する) は、コンピューター ビジョンにおける基本的な未解決の課題です。以前の方法は、手作り (色、テクスチャなど) であろうと学習 (オートエンコーダーなど) であろうと、低レベルの手がかりのクラスタリングを超えるのに苦労しています。この作業では、自動エンコーダー表現学習フレームワークを、モーション ガイダンスと中間レベルの機能のトークン化という 2 つの主要コンポーネントで強化します。両方とも別々に調査されていますが、モーションガイド付きベクトル量子化のおかげでそれらの利点が複合化できることを示す新しいトランスデコーダーを紹介します。私たちのアーキテクチャがモーションとトークン化の間の相乗効果を効果的に活用し、合成データセットと実際のデータセットの両方で最先端を改善していることを示します。私たちのアプローチは、解釈可能なオブジェクト固有の中間レベルの機能の出現を可能にし、モーションガイダンス (ラベル付けなし) と量子化 (解釈可能性、メモリ効率) の利点を示します。
Object discovery -- separating objects from the background without manual labels -- is a fundamental open challenge in computer vision. Previous methods struggle to go beyond clustering of low-level cues, whether handcrafted (e.g., color, texture) or learned (e.g., from auto-encoders). In this work, we augment the auto-encoder representation learning framework with two key components: motion-guidance and mid-level feature tokenization. Although both have been separately investigated, we introduce a new transformer decoder showing that their benefits can compound thanks to motion-guided vector quantization. We show that our architecture effectively leverages the synergy between motion and tokenization, improving upon the state of the art on both synthetic and real datasets. Our approach enables the emergence of interpretable object-specific mid-level features, demonstrating the benefits of motion-guidance (no labeling) and quantization (interpretability, memory efficiency).
updated: Mon Mar 27 2023 19:14:00 GMT+0000 (UTC)
published: Mon Mar 27 2023 19:14:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト