Evaluating Generalization Ability of Convolutional Neural Networks and Capsule Networks for Image Classification via Top-2 Classification
画像分類は、画像内のオブジェクトのカテゴリを識別することを目的とした難しい問題です。近年、このタスクを処理するために深い畳み込みニューラルネットワーク(CNN)が適用され、目覚ましい改善が達成されました。ただし、一部の研究では、CNNの出力は、少数のピクセルを変更するなど、入力画像に比較的小さな摂動を追加することで簡単に変更できることが示されています。最近、カプセルネットワーク(CapsNets)が提案されました。これは、この制限を取り除くのに役立ちます。 MNISTデータセットでの実験により、カプセルはCNNよりもオブジェクトの機能をより適切に特徴付けることができることが明らかになりました。しかし、CNNとCapsNetの一般化能力を比較するための適切な定量的方法を見つけるのは困難です。この論文では、CNNとCapsNetの一般化能力を評価するために、Top-2分類と呼ばれる新しい画像分類タスクを提案します。モデルは、従来の画像分類タスクと同じように、単一ラベルの画像サンプルでトレーニングされます。ただし、テスト段階では、異なるラベルを含む2つのテスト画像サンプルをランダムに連結し、トレーニング済みモデルを使用して、新しく作成された2つのラベル画像サンプルの上位2つのラベルを予測します。このタスクは、CNNとCapsNetの一般化能力を比較するための正確な定量的結果を提供できます。 CapsNetに戻ると、すべてのカプセル間でフルコネクティビティ(FC)メカニズムを使用しているため、多くのパラメーターが必要です。パラメータの数を減らすために、カプセル間にパラメータ共有(PS)メカニズムを導入します。広く使用されている5つのベンチマーク画像データセットでの実験は、この方法が特徴抽出の効果を失うことなく、パラメーターの数を大幅に削減することを示しています。さらに、トップ2分類タスクでは、提案されたPS CapsNetは、従来のCNNおよびFCCapsNetと比較して大幅に高い精度を実現します。
Image classification is a challenging problem which aims to identify the category of object in the image. In recent years, deep Convolutional Neural Networks (CNNs) have been applied to handle this task, and impressive improvement has been achieved. However, some research showed the output of CNNs can be easily altered by adding relatively small perturbations to the input image, such as modifying few pixels. Recently, Capsule Networks (CapsNets) are proposed, which can help eliminating this limitation. Experiments on MNIST dataset revealed that capsules can better characterize the features of object than CNNs. But it's hard to find a suitable quantitative method to compare the generalization ability of CNNs and CapsNets. In this paper, we propose a new image classification task called Top-2 classification to evaluate the generalization ability of CNNs and CapsNets. The models are trained on single label image samples same as the traditional image classification task. But in the test stage, we randomly concatenate two test image samples which contain different labels, and then use the trained models to predict the top-2 labels on the unseen newly-created two label image samples. This task can provide us precise quantitative results to compare the generalization ability of CNNs and CapsNets. Back to the CapsNet, because it uses Full Connectivity (FC) mechanism among all capsules, it requires many parameters. To reduce the number of parameters, we introduce the Parameter-Sharing (PS) mechanism between capsules. Experiments on five widely used benchmark image datasets demonstrate the method significantly reduces the number of parameters, without losing the effectiveness of extracting features. Further, on the Top-2 classification task, the proposed PS CapsNets obtain impressive higher accuracy compared to the traditional CNNs and FC CapsNets by a large margin.
updated: Sun Nov 27 2022 03:50:33 GMT+0000 (UTC)
published: Tue Jan 29 2019 05:34:40 GMT+0000 (UTC)
