バイリニアフィーチャ変換は、きめの細かい画像表現の学習における最先端のパフォーマンスを示しています。ただし、ディープフィーチャチャネル間のペアワイズ相互作用を学習するための計算コストは法外に高価であり、この強力な変換をディープニューラルネットワークで使用するには制限があります。この論文では、詳細な画像表現を学習するために、畳み込みニューラルネットワークに深く積み重ねることができる、深い双線形変換(DBT)ブロックを提案します。 DBTブロックは、入力チャネルを複数のセマンティックグループに均一に分割できます。各グループ内でペアワイズ相互作用を計算することで双線形変換を表すことができるため、計算コストを大幅に軽減できます。各ブロックの出力は、グループ内双線形特徴を入力特徴全体からの残差とともに集約することによりさらに取得されます。提案されたネットワークは、CUB-Bird、Stanford-Car、およびFGVC-Aircraftを含むいくつかのきめの細かい画像認識ベンチマークで新しい最先端を達成することがわかりました。
Bilinear feature transformation has shown the state-of-the-art performance in learning fine-grained image representations. However, the computational cost to learn pairwise interactions between deep feature channels is prohibitively expensive, which restricts this powerful transformation to be used in deep neural networks. In this paper, we propose a deep bilinear transformation (DBT) block, which can be deeply stacked in convolutional neural networks to learn fine-grained image representations. The DBT block can uniformly divide input channels into several semantic groups. As bilinear transformation can be represented by calculating pairwise interactions within each group, the computational cost can be heavily relieved. The output of each block is further obtained by aggregating intra-group bilinear features, with residuals from the entire input features. We found that the proposed network achieves new state-of-the-art in several fine-grained image recognition benchmarks, including CUB-Bird, Stanford-Car, and FGVC-Aircraft.