一般的な高次元タスクを学習することは、その次元で指数関数的に多数のトレーニング データが必要となるため、特に困難です。しかし、ディープ畳み込みニューラル ネットワーク (CNN) は、この課題を克服することに目覚ましい成功を収めています。一般的な仮説は、学習可能なタスクは高度に構造化されており、CNN はこの構造を利用してデータの低次元表現を構築しているというものです。ただし、必要なトレーニング データの量と、この数がデータ構造にどのように依存するかについてはほとんどわかっていません。このペーパーでは、実際のデータの関連する側面を捕捉しようとする単純な分類タスク、つまりランダム階層モデルについて、この質問に答えます。このモデルでは、n_c クラスのそれぞれが高レベルの特徴の m 個の同義語構成に対応し、L 回繰り返される反復プロセスを通じてサブ特徴で構成されます。このタスク (i) を学習するためにディープ CNN が必要とするトレーニング データ P^* の数は、n_c m^L として漸近的に増加することがわかります。これは入力次元では多項式に過ぎません。 (ii) 訓練されたネットワークの表現が同義語の交換に対して不変になるように、訓練セットのサイズと一致します。 (iii) は、低レベルの特徴とクラスの間の相関が検出可能になるデータの数に対応します。全体として、私たちの結果は、CNN が不変表現を構築することで次元性の呪いをどの程度克服できるかを示し、階層的な構成構造に基づいてタスクを学習するために必要なデータ数の推定値を提供します。
Learning generic high-dimensional tasks is notably hard, as it requires a number of training data exponential in the dimension. Yet, deep convolutional neural networks (CNNs) have shown remarkable success in overcoming this challenge. A popular hypothesis is that learnable tasks are highly structured and that CNNs leverage this structure to build a low-dimensional representation of the data. However, little is known about how much training data they require, and how this number depends on the data structure. This paper answers this question for a simple classification task that seeks to capture relevant aspects of real data: the Random Hierarchy Model. In this model, each of the n_c classes corresponds to m synonymic compositions of high-level features, which are in turn composed of sub-features through an iterative process repeated L times. We find that the number of training data P^* required by deep CNNs to learn this task (i) grows asymptotically as n_c m^L, which is only polynomial in the input dimensionality; (ii) coincides with the training set size such that the representation of a trained network becomes invariant to exchanges of synonyms; (iii) corresponds to the number of data at which the correlations between low-level features and classes become detectable. Overall, our results indicate how deep CNNs can overcome the curse of dimensionality by building invariant representations, and provide an estimate of the number of data required to learn a task based on its hierarchically compositional structure.