人間の知能のコア コンポーネントは、Raven のプログレッシブ マトリックス (RPM) などの視覚的推論タスクによって例示されるように、複雑で高次元の知覚データに固有の抽象的なパターンを識別する能力です。この能力を備えた AI システムを設計するという目標に動機付けられた最近の研究では、ニューラル ネットワークが RPM のような問題を解決することを学習できるかどうかの評価に焦点が当てられています。以前の研究では、一般に、これらの問題で強力なパフォーマンスを得るには、RPM 問題形式に固有の帰納的バイアスを組み込む必要があることがわかっており、そのようなモデルがより広く役立つかどうかという疑問が生じています。ここでは、オブジェクトの観点から視覚シーンを処理するための汎用メカニズムが、抽象的な視覚的推論を促進するのにどの程度役立つかを調査しました。オブジェクト中心のエンコーダーと変換推論モジュールのみで構成される単純なモデルが、2 つの困難な RPM に似たベンチマーク (PGM と I-RAVEN) の両方で最先端の結果を達成したことがわかりました。より視覚的に複雑な新しいベンチマーク (CLEVR-Matrices)。これらの結果は、オブジェクト中心の処理に対する帰納的バイアスが抽象的な視覚的推論の重要な要素であり、問題固有の帰納的バイアスの必要性を排除することを示唆しています。
A core component of human intelligence is the ability to identify abstract patterns inherent in complex, high-dimensional perceptual data, as exemplified by visual reasoning tasks such as Raven's Progressive Matrices (RPM). Motivated by the goal of designing AI systems with this capacity, recent work has focused on evaluating whether neural networks can learn to solve RPM-like problems. Previous work has generally found that strong performance on these problems requires the incorporation of inductive biases that are specific to the RPM problem format, raising the question of whether such models might be more broadly useful. Here, we investigated the extent to which a general-purpose mechanism for processing visual scenes in terms of objects might help promote abstract visual reasoning. We found that a simple model, consisting only of an object-centric encoder and a transformer reasoning module, achieved state-of-the-art results on both of two challenging RPM-like benchmarks (PGM and I-RAVEN), as well as a novel benchmark with greater visual complexity (CLEVR-Matrices). These results suggest that an inductive bias for object-centric processing may be a key component of abstract visual reasoning, obviating the need for problem-specific inductive biases.