Improving the Robustness of Capsule Networks to Image Affine Transformations
 畳み込みニューラルネットワーク(CNN)は、プーリング操作を使用して並進不変性を実現します。ただし、操作では、学習された表現の空間関係は保持されません。したがって、CNNは入力のさまざまな幾何学的変換に外挿できません。最近、この問題に対処するためにカプセルネットワーク(CapsNets)が提案されました。 CapsNetでは、各エンティティはベクトルで表され、動的ルーティングアルゴリズムによって高レベルのエンティティ表現にルーティングされます。 CapsNetは、入力の変換をアフィンするためにCNNよりも堅牢であることが示されています。ただし、変換されていないバージョンと比較して、変換された入力でのパフォーマンスには大きなギャップがあります。この作業では、まず、フォワードパスとバックワードパスを(アン)ロールしてルーティング手順を再検討します。調査の結果、ルーティング手順は、CapsNetの汎化能力にもアフィン堅牢性にも貢献していないことがわかりました。さらに、カプセル変換の限界を探り、アフィン変換に対してより堅牢なアフィンCapsNet(Aff-CapsNets)を提案します。モデルがMNISTデータセットでトレーニングされ、AffNISTデータセットでテストされるベンチマークタスクでは、ルーティングメカニズムを使用せずに、Aff-CapsNetsがベンチマークのパフォーマンスを大幅に(79%から93.21%に)改善します。
Convolutional neural networks (CNNs) achieve translational invariance by using pooling operations. However, the operations do not preserve the spatial relationships in the learned representations. Hence, CNNs cannot extrapolate to various geometric transformations of inputs. Recently, Capsule Networks (CapsNets) have been proposed to tackle this problem. In CapsNets, each entity is represented by a vector and routed to high-level entity representations by a dynamic routing algorithm. CapsNets have been shown to be more robust than CNNs to affine transformations of inputs. However, there is still a huge gap between their performance on transformed inputs compared to untransformed versions. In this work, we first revisit the routing procedure by (un)rolling its forward and backward passes. Our investigation reveals that the routing procedure contributes neither to the generalization ability nor to the affine robustness of the CapsNets. Furthermore, we explore the limitations of capsule transformations and propose affine CapsNets (Aff-CapsNets), which are more robust to affine transformations. On our benchmark task, where models are trained on the MNIST dataset and tested on the AffNIST dataset, our Aff-CapsNets improve the benchmark performance by a large margin (from 79% to 93.21%), without using any routing mechanism.
updated: Tue Mar 31 2020 08:03:12 GMT+0000 (UTC)
published: Mon Nov 18 2019 21:43:17 GMT+0000 (UTC)
