arXiv reaDer
マルチオブジェクト認識のためのオブジェクト中心のカプセル表現を備えた反復注意モデル
Recurrent Attention Models with Object-centric Capsule Representation for Multi-object Recognition
視覚システムは、それぞれが空間的およびオブジェクトベースの注意によって駆動される一連の選択的な垣間見ることを使用してシーンを処理します。これらの垣間見ることは、進行中のタスクに関連するものを反映し、シーン内のオブジェクトの繰り返しの処理と認識を通じて選択されます。対照的に、ほとんどのモデルは、注意の選択と認識をフィードフォワードプロセスの別々の段階として扱います。ここでは、カプセルネットワークを使用して、エンコーダー-デコーダーモデルでオブジェクト中心の隠された表現を作成し、注意を繰り返し垣間見ることで、注意と認識を効果的に統合できることを示します。 3つのマルチオブジェクト認識タスクでモデルを評価します。非常に重なっている数字、気が散る雑然とした家番号の間の数字、そしてそれがその垣間見る窓を効果的に動かし、オブジェクトを認識して再構築することを学ぶことを示します、すべて監督としての分類だけで。私たちの仕事は、繰り返し発生するオブジェクト中心の表現を注意の垣間見る計画に統合する方法の一般的なアーキテクチャに向けた一歩を踏み出しました。
The visual system processes a scene using a sequence of selective glimpses, each driven by spatial and object-based attention. These glimpses reflect what is relevant to the ongoing task and are selected through recurrent processing and recognition of the objects in the scene. In contrast, most models treat attention selection and recognition as separate stages in a feedforward process. Here we show that using capsule networks to create an object-centric hidden representation in an encoder-decoder model with iterative glimpse attention yields effective integration of attention and recognition. We evaluate our model on three multi-object recognition tasks; highly overlapping digits, digits among distracting clutter and house numbers, and show that it learns to effectively move its glimpse window, recognize and reconstruct the objects, all with only the classification as supervision. Our work takes a step toward a general architecture for how to integrate recurrent object-centric representation into the planning of attentional glimpses.
updated: Mon Oct 11 2021 01:41:21 GMT+0000 (UTC)
published: Mon Oct 11 2021 01:41:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト