既存のディープたたみ込みニューラルネットワーク(CNN)のグローバル平均プーリングと比較して、グローバル共分散プーリングは、ディープCNNの表現と汎化能力を向上させる可能性がある、ディープフィーチャの豊富な統計をキャプチャできます。ただし、グローバル共分散プーリングをディープCNNに統合すると、2つの課題が生じます。 (2)共分散のジオメトリの適切な使用法。これらの課題に対処するために、グローバルなマトリックスパワー正規化COVariance(MPN-COV)プーリングを提案します。 MPN-COVはロバストな共分散推定量に準拠しており、高次元でサンプルサイズが小さいシナリオに非常に適しています。また、共分散間のパワーユークリッドメトリックと見なして、それらのジオメトリを効果的に活用することもできます。さらに、MPN-COVに一次統計を組み込むためのグローバルガウス埋め込みネットワークが提案されています。 MPN-COVネットワークの高速トレーニングのために、反復行列平方根正規化を実装し、MPN-COVに固有のGPUの非友好的な固有分解を回避します。さらに、プログレッシブ1x1コンボリューションとグループコンボリューションが導入され、共分散表現を圧縮します。提案された方法は高度にモジュール化されており、既存のディープCNNに簡単にプラグインできます。大規模なオブジェクト分類、シーンの分類、きめの細かい視覚認識、テクスチャ分類について広範な実験が行われ、当社の手法が他の手法よりも優れ、最先端のパフォーマンスが得られることが示されています。
Compared with global average pooling in existing deep convolutional neural networks (CNNs), global covariance pooling can capture richer statistics of deep features, having potential for improving representation and generalization abilities of deep CNNs. However, integration of global covariance pooling into deep CNNs brings two challenges: (1) robust covariance estimation given deep features of high dimension and small sample size; (2) appropriate usage of geometry of covariances. To address these challenges, we propose a global Matrix Power Normalized COVariance (MPN-COV) Pooling. Our MPN-COV conforms to a robust covariance estimator, very suitable for scenario of high dimension and small sample size. It can also be regarded as Power-Euclidean metric between covariances, effectively exploiting their geometry. Furthermore, a global Gaussian embedding network is proposed to incorporate first-order statistics into MPN-COV. For fast training of MPN-COV networks, we implement an iterative matrix square root normalization, avoiding GPU unfriendly eigen-decomposition inherent in MPN-COV. Additionally, progressive 1x1 convolutions and group convolution are introduced to compress covariance representations. The proposed methods are highly modular, readily plugged into existing deep CNNs. Extensive experiments are conducted on large-scale object classification, scene categorization, fine-grained visual recognition and texture classification, showing our methods outperform the counterparts and obtain state-of-the-art performance.