Understanding the computational demands underlying visual reasoning
視覚的な理解には、シーン内のオブジェクト間の複雑な視覚的関係を理解する必要があります。ここでは、抽象的な視覚的推論に対する計算上の要求を特徴づけることを目指しています。これを行うには、現代の深い畳み込みニューラルネットワーク(CNN)が、23の視覚的推論問題のコレクションであるSynthetic Visual Reasoning Test(SVRT)の課題を解決する方法を体系的に評価します。私たちの分析は、視覚的推論タスクの新しい分類法につながります。これは、主に関係のタイプ(同じ異なる対空間関係の判断)と、基礎となるルールを構成するために使用される関係の数の両方によって説明できます。以前の認知神経科学の研究は、注意が人間の視覚的推論能力において重要な役割を果たすことを示唆しています。これをテストするために、空間的および機能ベースの注意メカニズムでCNNを拡張しました。 2番目の一連の実験では、SVRTの課題を解決する方法を学習するこれらの注意ネットワークの能力を評価し、結果として得られるアーキテクチャが、これらの視覚的推論タスクの中で最も難しいものを解決するのにはるかに効率的であることを発見しました。最も重要なことは、個々のタスクの対応する改善が分類法を部分的に説明したことです。全体として、この作業は視覚的推論の理解を促進し、視覚的推論における機能ベースの注意と空間的注意の必要性に関するテスト可能な神経科学の予測をもたらします。
Visual understanding requires comprehending complex visual relations between objects within a scene. Here, we seek to characterize the computational demands for abstract visual reasoning. We do this by systematically assessing the ability of modern deep convolutional neural networks (CNNs) to learn to solve the Synthetic Visual Reasoning Test (SVRT) challenge, a collection of twenty-three visual reasoning problems. Our analysis leads to a novel taxonomy of visual reasoning tasks, which can be primarily explained by both the type of relations (same-different vs. spatial-relation judgments) and the number of relations used to compose the underlying rules. Prior cognitive neuroscience work suggests that attention plays a key role in human's visual reasoning ability. To test this, we extended the CNNs with spatial and feature-based attention mechanisms. In a second series of experiments, we evaluated the ability of these attention networks to learn to solve the SVRT challenge and found the resulting architectures to be much more efficient at solving the hardest of these visual reasoning tasks. Most importantly, the corresponding improvements on individual tasks partially explained the taxonomy. Overall, this work advances our understanding of visual reasoning and yields testable Neuroscience predictions regarding the need for feature-based vs. spatial attention in visual reasoning.
updated: Sun Aug 08 2021 10:46:53 GMT+0000 (UTC)
published: Sun Aug 08 2021 10:46:53 GMT+0000 (UTC)
