視覚的なシーンで知覚グループを形成し、オブジェクトを個別化することは、視覚的知性に向けた重要なステップです。この能力は、ニューロン間のボトムアップ、水平、およびトップダウン接続によって実装された計算から脳内で発生すると考えられています。ただし、知覚のグループ化に対するこれらの接続の相対的な寄与はよくわかっていません。知覚的グループ化のための低レベルの「ゲシュタルト」と高レベルのオブジェクトの手がかりを強調する2つの合成視覚タスクで、ボトムアップ、水平、トップダウンの接続の組み合わせを特徴とするニューラルネットワークアーキテクチャを体系的に評価することで、この質問に対処します。どちらのタスクの難易度を上げると、ボトムアップ接続のみに依存するネットワークの学習に負担がかかることを示します。水平接続は、増分グループ化をサポートすることでゲシュタルトキューを使用したタスクの負担を解決しますが、トップダウン接続は、ターゲットオブジェクトの位置に関する大まかな予測を変更することで、高レベルのオブジェクトキューを使用したタスクの学習を支援します。私たちの調査結果は、ボトムアップ、水平、トップダウンの接続性の計算上の役割を分離し、これらすべての相互作用を特徴とするモデルが知覚グループを形成することをより柔軟に学習できることを示しています。
Forming perceptual groups and individuating objects in visual scenes is an essential step towards visual intelligence. This ability is thought to arise in the brain from computations implemented by bottom-up, horizontal, and top-down connections between neurons. However, the relative contributions of these connections to perceptual grouping are poorly understood. We address this question by systematically evaluating neural network architectures featuring combinations bottom-up, horizontal, and top-down connections on two synthetic visual tasks, which stress low-level "Gestalt" vs. high-level object cues for perceptual grouping. We show that increasing the difficulty of either task strains learning for networks that rely solely on bottom-up connections. Horizontal connections resolve straining on tasks with Gestalt cues by supporting incremental grouping, whereas top-down connections rescue learning on tasks with high-level object cues by modifying coarse predictions about the position of the target object. Our findings dissociate the computational roles of bottom-up, horizontal and top-down connectivity, and demonstrate how a model featuring all of these interactions can more flexibly learn to form perceptual groups.