arXiv reaDer
視覚概念学習における構成の多様性
Compositional diversity in visual concept learning
人間は構成性を利用して新しい概念を効率的に学習し、見慣れた部品がどのように結合して新しいオブジェクトを形成するかを理解します。対照的に、一般的なコンピューター ビジョン モデルは、同じ種類の推論を行うのに苦労しており、人間よりも多くのデータが必要で、一般化の柔軟性が低くなります。ここでは、人間が持つ特有の能力をさまざまなタイプの視覚的構成にわたって研究し、人間がどのようにして豊かな関係構造を持つ「エイリアンの人物」を分類し、生成するかを調査します。また、さまざまな構成メカニズムと抽象化を含む大規模なプログラム空間を利用して、候補の視覚的図形を生成するための最適なプログラムを検索するベイジアン プログラム誘導モデルも開発します。いくつかのショット分類タスクでは、人間とプログラム誘導モデルが、実験データの強力な説明と、カテゴリに不変の因子に関する人間の仮定を明らかにする解釈可能なパラメーターを提供するモデルにより、意味のある一連の構成的一般化を行うことができることがわかりました。メンバーシップ (ここでは、パーツのアタッチメントの回転と変更)。いくつかのショット生成タスクでは、人間とモデルの両方が説得力のある新しい例を構築できます。人間はモデルの能力を超えて追加の構造化された方法で行動します。たとえば、セットを完成させる選択をしたり、非常に斬新な方法で既存のパーツを再構成したりします。これらの追加の行動パターンを捕捉するために、神経記号プログラム誘導に基づいた代替モデルを開発します。このモデルはまた、既存の部分から新しい概念を構成しますが、特徴的なのは、ニューラル ネットワーク モジュールを利用して残差の統計構造を首尾よく捕捉することです。私たちの行動的および計算的発見を総合すると、視覚オブジェクトを分類および生成する際に、人間とモデルがどのようにして多様な構成的動作を生み出すことができるかを示しています。
Humans leverage compositionality to efficiently learn new concepts, understanding how familiar parts can combine together to form novel objects. In contrast, popular computer vision models struggle to make the same types of inferences, requiring more data and generalizing less flexibly than people do. Here, we study these distinctively human abilities across a range of different types of visual composition, examining how people classify and generate ``alien figures'' with rich relational structure. We also develop a Bayesian program induction model which searches for the best programs for generating the candidate visual figures, utilizing a large program space containing different compositional mechanisms and abstractions. In few shot classification tasks, we find that people and the program induction model can make a range of meaningful compositional generalizations, with the model providing a strong account of the experimental data as well as interpretable parameters that reveal human assumptions about the factors invariant to category membership (here, to rotation and changing part attachment). In few shot generation tasks, both people and the models are able to construct compelling novel examples, with people behaving in additional structured ways beyond the model capabilities, e.g. making choices that complete a set or reconfiguring existing parts in highly novel ways. To capture these additional behavioral patterns, we develop an alternative model based on neuro-symbolic program induction: this model also composes new concepts from existing parts yet, distinctively, it utilizes neural network modules to successfully capture residual statistical structure. Together, our behavioral and computational findings show how people and models can produce a rich variety of compositional behavior when classifying and generating visual objects.
updated: Tue May 30 2023 19:30:50 GMT+0000 (UTC)
published: Tue May 30 2023 19:30:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト