arXiv reaDer
ACTNET:効果的なインスタンス画像検索のための機能アクティベーションとマルチストリーム集約のエンドツーエンド学習
ACTNET: end-to-end learning of feature activations and multi-stream aggregation for effective instance image retrieval
大規模データセットからの堅牢なインスタンス画像検索のために、ACTNETと呼ばれる新しいCNNアーキテクチャを提案します。私たちの重要な革新は、深い畳み込み特徴マップの信号対雑音比(SNR)を改善するように設計された学習可能なアクティベーションレイヤーです。さらに、制御されたマルチストリーム集約を導入します。この集約では、グローバル記述子に集約する前に、さまざまな畳み込み層からの補完的な深い特徴が、新しいアクティベーション層を使用して最適に変換およびバランス調整されます。重要なのは、アクティベーションブロックの学習可能なパラメーターが、CNNパラメーターとともに、エンドツーエンドの方法で明示的にトレーニングされ、トリプレットの損失を最小限に抑えることです。これは、私たちのネットワークが共同でCNNフィルターと、検索タスクのためのそれらの最適なアクティブ化と集約を学習することを意味します。私たちの知る限り、最適な集計を制御および学習するためにパラメトリック関数が使用されたのはこれが初めてです。正弦双曲線、指数関数、修正ワイブルの3つの非線形活性化関数について詳細な実験的研究を行い、すべてが大幅な向上をもたらす一方で、強力な活性化を均等化する能力のおかげでワイブル関数が最高のパフォーマンスを発揮することを示しています。結果は、ACTNETアーキテクチャが深い特徴の識別力を大幅に強化し、すべてのデータセットでの最先端の検索結果を大幅に改善していることを明確に示しています。
We propose a novel CNN architecture called ACTNET for robust instance image retrieval from large-scale datasets. Our key innovation is a learnable activation layer designed to improve the signal-to-noise ratio (SNR) of deep convolutional feature maps. Further, we introduce a controlled multi-stream aggregation, where complementary deep features from different convolutional layers are optimally transformed and balanced using our novel activation layers, before aggregation into a global descriptor. Importantly, the learnable parameters of our activation blocks are explicitly trained, together with the CNN parameters, in an end-to-end manner minimising triplet loss. This means that our network jointly learns the CNN filters and their optimal activation and aggregation for retrieval tasks. To our knowledge, this is the first time parametric functions have been used to control and learn optimal aggregation. We conduct an in-depth experimental study on three non-linear activation functions: Sine-Hyperbolic, Exponential and modified Weibull, showing that while all bring significant gains the Weibull function performs best thanks to its ability to equalise strong activations. The results clearly demonstrate that our ACTNET architecture significantly enhances the discriminative power of deep features, improving significantly over the state-of-the-art retrieval results on all datasets.
updated: Fri Oct 23 2020 16:04:46 GMT+0000 (UTC)
published: Fri Jul 12 2019 15:24:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト