カプセルは、ジェフリーヒントンがベクトル値ニューロンに付けた名前です。ニューラルネットワークは伝統的に、活性化されたニューロンのスカラー値を生成します。一方、カプセルは値のベクトルを生成します。これは、ベクトルのコンポーネントの値が変換やコントラストなどの特徴のプロパティを示す単一の複合特徴に対応するとヒントンは主張します。均一ベクトルカプセル(HVC)と呼ばれるカプセルのパラメーター化とトレーニングの新しい方法を紹介します。実験的に、HVCを使用するように畳み込みニューラルネットワーク(CNN)を変更すると、単一の最終的な完全接続層を使用するCNNと比較して、アーキテクチャ内のパラメーターや操作の数を増やすことなく、優れた分類精度を達成できることを示します。さらに、HVCの導入により、適応勾配降下法の使用が可能になり、モデルの達成可能な精度が非適応オプティマイザーの微調整されたハイパーパラメーターに依存することが軽減されます。 2つのニューラルネットワークアーキテクチャを使用して、方法と結果を示します。まず、非常に単純なモノリシックCNNで、HVCを使用すると、ベースラインアーキテクチャよりも上位1つの分類精度が63%向上し、上位5つの分類精度が35%向上しました。次に、Inception v3と呼ばれるCNNアーキテクチャを使用して、HVCの有無にかかわらず同様の精度を実現しました。さらに、HVCを使用した場合の単純なモノリシックCNNは、300エポックを超えても過剰適合を示さなかったのに対し、ベースラインは30エポック後に過剰適合を示しました。両方のネットワークでImageNetILSVRC2012分類チャレンジデータセットを使用します。
Capsules are the name given by Geoffrey Hinton to vector-valued neurons. Neural networks traditionally produce a scalar value for an activated neuron. Capsules, on the other hand, produce a vector of values, which Hinton argues correspond to a single, composite feature wherein the values of the components of the vectors indicate properties of the feature such as transformation or contrast. We present a new way of parameterizing and training capsules that we refer to as homogeneous vector capsules (HVCs). We demonstrate, experimentally, that altering a convolutional neural network (CNN) to use HVCs can achieve superior classification accuracy without increasing the number of parameters or operations in its architecture as compared to a CNN using a single final fully connected layer. Additionally, the introduction of HVCs enables the use of adaptive gradient descent, reducing the dependence a model's achievable accuracy has on the finely tuned hyperparameters of a non-adaptive optimizer. We demonstrate our method and results using two neural network architectures. First, a very simple monolithic CNN that when using HVCs achieved a 63% improvement in top-1 classification accuracy and a 35% improvement in top-5 classification accuracy over the baseline architecture. Second, with the CNN architecture referred to as Inception v3 that achieved similar accuracies both with and without HVCs. Additionally, the simple monolithic CNN when using HVCs showed no overfitting after more than 300 epochs whereas the baseline showed overfitting after 30 epochs. We use the ImageNet ILSVRC 2012 classification challenge dataset with both networks.