Self-Attention Capsule Networks(SACN)と呼ばれるオブジェクト分類のための新しいアーキテクチャを提案します。 SACNは、Capsule Network(CapsNet)内の不可欠なレイヤーとしてSelf-Attentionメカニズムを組み込んだ最初のモデルです。 Self-Attentionメカニズムは長距離の依存関係を提供し、焦点を当てるより支配的な画像領域を選択しますが、CapsNetは関連する機能とこれらの領域内の空間相関のみを分析します。特徴は畳み込み層で抽出されます。次に、Self-Attentionレイヤーは、フィーチャ分析に基づいて無関係な領域を抑制することを学習し、特定のタスクに役立つ顕著なフィーチャを強調表示します。次に、アテンションマップがCapsNetプライマリレイヤーに送られ、その後に分類レイヤーが続きます。提案されたSACNモデルは、ベースラインCapsNetの2つの主な制限-複雑なデータの分析と大きな計算負荷を解決するために設計されました。この作業では、浅いCapsNetアーキテクチャを使用し、Self-Attentionモジュールを使用して結果を大幅に改善することで、より深いネットワークがないことを補正します。提案されたSelf-Attention CapsNetアーキテクチャは、自然のMNIST、SVHN、CIFAR10に加えて、主に3つの異なる医療セットで、6つの異なるデータセットで広範囲に評価されました。このモデルは、ベースラインCapsNetよりも多様で複雑な背景を持つ画像とそのパッチを分類することができました。その結果、提案されたSelf-Attention CapsNetは、異なるデータセット内および異なるデータセット全体で分類パフォーマンスを大幅に改善し、分類精度だけでなく堅牢性もベースラインCapsNet、ResNet-18、およびDenseNet-40を上回りました。
We propose a novel architecture for object classification, called Self-Attention Capsule Networks (SACN). SACN is the first model that incorporates the Self-Attention mechanism as an integral layer within the Capsule Network (CapsNet). While the Self-Attention mechanism supplies a long-range dependencies, results in selecting the more dominant image regions to focus on, the CapsNet analyzes the relevant features and their spatial correlations inside these regions only. The features are extracted in the convolutional layer. Then, the Self-Attention layer learns to suppress irrelevant regions based on features analysis and highlights salient features useful for a specific task. The attention map is then fed into the CapsNet primary layer that is followed by a classification layer. The proposed SACN model was designed to solve two main limitations of the baseline CapsNet - analysis of complex data and significant computational load. In this work, we use a shallow CapsNet architecture and compensates for the absence of a deeper network by using the Self-Attention module to significantly improve the results. The proposed Self-Attention CapsNet architecture was extensively evaluated on six different datasets, mainly on three different medical sets, in addition to the natural MNIST, SVHN and CIFAR10. The model was able to classify images and their patches with diverse and complex backgrounds better than the baseline CapsNet. As a result, the proposed Self-Attention CapsNet significantly improved classification performance within and across different datasets and outperformed the baseline CapsNet, ResNet-18 and DenseNet-40 not only in classification accuracy but also in robustness.