コンテキストは視覚認識において重要な役割を果たします。最近の研究は、視覚認識ネットワークが一貫性のない状況でオブジェクトを配置することによってだまされる可能性があることを示しています(たとえば、海の牛)。視覚認識における文脈情報の役割をモデル化するために、文脈の量、文脈とオブジェクトの解像度、文脈の幾何学的構造、文脈の合同、時間的ダイナミクスなど、文脈が認識をどこで、いつ、どのように変調するかについて、10の重要な特性を体系的に調査しました文脈変調。タスクには、自然画像のコンテキストに囲まれたターゲットオブジェクトの認識が含まれていました。必須のベンチマークとして、一連の心理物理学実験を実施し、コンテキストの1つの側面を一度に変更し、認識精度を定量化しました。 2ストリームアーキテクチャで構成される、生物学にヒントを得たコンテキスト認識オブジェクト認識モデルを提案します。モデルは、中心窩と周辺の視覚情報を並行して処理し、オブジェクトとコンテキストの情報を動的に組み込み、ターゲットオブジェクトのクラスラベルに関する理由を順次示します。幅広い行動タスクにわたって、モデルは各タスクの再トレーニングなしで人間レベルのパフォーマンスを概算し、画像のプロパティに対するコンテキスト拡張の依存性をキャプチャし、視覚認識のためにシーンとオブジェクトの情報を統合するための最初のステップを提供します。すべてのソースコードとデータは公開されています:https://github.com/kreimanlab/Put-In-Context。
Context plays an important role in visual recognition. Recent studies have shown that visual recognition networks can be fooled by placing objects in inconsistent contexts (e.g., a cow in the ocean). To model the role of contextual information in visual recognition, we systematically investigated ten critical properties of where, when, and how context modulates recognition, including the amount of context, context and object resolution, geometrical structure of context, context congruence, and temporal dynamics of contextual modulation. The tasks involved recognizing a target object surrounded with context in a natural image. As an essential benchmark, we conducted a series of psychophysics experiments where we altered one aspect of context at a time, and quantified recognition accuracy. We propose a biologically-inspired context-aware object recognition model consisting of a two-stream architecture. The model processes visual information at the fovea and periphery in parallel, dynamically incorporates object and contextual information, and sequentially reasons about the class label for the target object. Across a wide range of behavioral tasks, the model approximates human level performance without retraining for each task, captures the dependence of context enhancement on image properties, and provides initial steps towards integrating scene and object information for visual recognition. All source code and data are publicly available: https://github.com/kreimanlab/Put-In-Context.