arXiv reaDer
カプセル間の注意ルーティング
Attention routing between capsules
 このペーパーでは、Attention Routing CapsuleNet(AR CapsNet)と呼ばれる新しいカプセルネットワークアーキテクチャを提案します。カプセルネットワークの動的ルーティングおよびスカッシュアクティベーション機能を、アテンションルーティングおよびカプセルアクティベーションを備えた動的ルーティング(CapsuleNet)に置き換えます。アテンションルーティングは、アテンションモジュールを介したカプセル間のルーティングです。アテンションルーティングは、空間情報を維持したままの高速転送です。一方、動的ルーティングの直感的な解釈は、予測カプセルの重心を見つけることです。したがって、スカッシュアクティベーション関数とそのバリアントは、ベクトルの方向を維持することに焦点を当てています。ただし、カプセルのアクティブ化は、カプセルスケールのアクティブ化機能の実行に焦点を当てています。 MNIST、affNIST、およびCIFAR-10分類タスクで提案されたモデルを評価します。提案されたモデルは、CapsuleNet(MNISTでx0.19、CIFAR-10でx0.35)よりも少ないパラメーター(MNISTでx0.65、CIFAR-10でx0.82)および短いトレーニング時間でより高い精度を達成します。これらの結果は、カプセルスケール操作の設計がカプセルの概念を実装するための重要な要素であることを検証しています。また、私たちの実験は、提案されたモデルがCapsuleNetと同等の変換であることを示しています。出力カプセルの各要素を摂動させると、出力カプセルに接続されたデコーダーはグローバルな変動を示します。さらなる実験により、入力画像にアフィン変換を適用することによって生じるカプセルの特徴の違いは、一方向に大きく整列することが示されています。
In this paper, we propose a new capsule network architecture called Attention Routing CapsuleNet (AR CapsNet). We replace the dynamic routing and squash activation function of the capsule network with dynamic routing (CapsuleNet) with the attention routing and capsule activation. The attention routing is a routing between capsules through an attention module. The attention routing is a fast forward-pass while keeping spatial information. On the other hand, the intuitive interpretation of the dynamic routing is finding a centroid of the prediction capsules. Thus, the squash activation function and its variant focus on preserving a vector orientation. However, the capsule activation focuses on performing a capsule-scale activation function. We evaluate our proposed model on the MNIST, affNIST, and CIFAR-10 classification tasks. The proposed model achieves higher accuracy with fewer parameters (x0.65 in the MNIST, x0.82 in the CIFAR-10) and less training time than CapsuleNet (x0.19 in the MNIST, x0.35 in the CIFAR-10). These results validate that designing a capsule-scale operation is a key factor to implement the capsule concept. Also, our experiment shows that our proposed model is transformation equivariant as CapsuleNet. As we perturb each element of the output capsule, the decoder attached to the output capsules shows global variations. Further experiments show that the difference in the capsule features caused by applying affine transformations on an input image is significantly aligned in one direction.
updated: Wed Nov 13 2019 08:02:00 GMT+0000 (UTC)
published: Wed Jul 03 2019 06:01:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト