Multiple instance dense connected convolution neural network for aerial image scene classification
ディープラーニングの開発により、多くの最先端の自然画像シーン分類方法が印象的なパフォーマンスを実証しています。現在の畳み込みニューラルネットワークは、シーン内のグローバルフィーチャとグローバルセマンティック情報を抽出する傾向がありますが、地理空間オブジェクトは空中画像シーンのどこにでも配置でき、その空間配置はより複雑になる傾向があります。考えられる解決策の1つは、よりローカルなセマンティック情報を保持し、機能の伝播を強化することです。この論文では、空中画像のシーン分類のために、エンドツーエンドの複数インスタンス密結合畳み込みニューラルネットワーク(MIDCCNN)を提案します。まず、23層の密な接続畳み込みニューラルネットワーク(DCCNN)が構築され、畳み込み機能を抽出するためのバックボーンとして機能します。中レベルおよび低レベルの畳み込み機能を保持できます。次に、注意に基づく複数インスタンスプーリングを提案して、航空画像シーンのローカルセマンティクスを強調します。最後に、フレームワーク全体を直接トレーニングできるように、バッグレベルの予測とグラウンドトゥルースラベル間の損失を最小限に抑えます。 3つの航空画像データセットの実験は、提案された方法が現在のベースラインよりも大幅に優れていることを示しています。
With the development of deep learning, many state-of-the-art natural image scene classification methods have demonstrated impressive performance. While the current convolution neural network tends to extract global features and global semantic information in a scene, the geo-spatial objects can be located at anywhere in an aerial image scene and their spatial arrangement tends to be more complicated. One possible solution is to preserve more local semantic information and enhance feature propagation. In this paper, an end to end multiple instance dense connected convolution neural network (MIDCCNN) is proposed for aerial image scene classification. First, a 23 layer dense connected convolution neural network (DCCNN) is built and served as a backbone to extract convolution features. It is capable of preserving middle and low level convolution features. Then, an attention based multiple instance pooling is proposed to highlight the local semantics in an aerial image scene. Finally, we minimize the loss between the bag-level predictions and the ground truth labels so that the whole framework can be trained directly. Experiments on three aerial image datasets demonstrate that our proposed methods can outperform current baselines by a large margin.
updated: Thu Aug 22 2019 00:59:47 GMT+0000 (UTC)
published: Thu Aug 22 2019 00:59:47 GMT+0000 (UTC)
