シーン認識は、現在、コンピュータービジョンにおける最も挑戦的な研究分野の1つです。これは、クラス間のあいまいさが原因である可能性があります。複数のシーンクラスの画像が類似したオブジェクトを共有し、それらの間で混乱を引き起こす場合があります。特定のシーンクラスの画像が著しく異なる場合、問題は悪化します。畳み込みニューラルネットワーク(CNN)は、シーン認識のパフォーマンスを大幅に向上させましたが、他の認識タスク(オブジェクトまたは画像認識など)にはまだほど遠いものです。この論文では、注意モジュールによって画像とコンテキスト情報を組み合わせたエンドツーエンドのマルチモーダルCNNに基づくシーン認識の新しいアプローチについて説明します。セマンティックセグメンテーションの形をしたコンテキスト情報を使用して、セマンティック表現でエンコードされた情報を活用することにより、RGBイメージから抽出された機能を制御します。このゲーティングプロセスは、指示的なシーンコンテンツの学習を強化し、CNNの受容フィールドをそれらに向けることにより、シーンの曖昧さを解消します。 4つの公開データセットの実験結果は、提案されたアプローチがネットワークパラメーターの数を大幅に削減しながら、他のすべての最先端の方法よりも優れていることを示しています。このペーパーで使用されているすべてのコードとデータは、https://github.com/vpulab/Semantic-Aware-Scene-Recognitionで入手できます。
Scene recognition is currently one of the top-challenging research fields in computer vision. This may be due to the ambiguity between classes: images of several scene classes may share similar objects, which causes confusion among them. The problem is aggravated when images of a particular scene class are notably different. Convolutional Neural Networks (CNNs) have significantly boosted performance in scene recognition, albeit it is still far below from other recognition tasks (e.g., object or image recognition). In this paper, we describe a novel approach for scene recognition based on an end-to-end multi-modal CNN that combines image and context information by means of an attention module. Context information, in the shape of semantic segmentation, is used to gate features extracted from the RGB image by leveraging on information encoded in the semantic representation: the set of scene objects and stuff, and their relative locations. This gating process reinforces the learning of indicative scene content and enhances scene disambiguation by refocusing the receptive fields of the CNN towards them. Experimental results on four publicly available datasets show that the proposed approach outperforms every other state-of-the-art method while significantly reducing the number of network parameters. All the code and data used along this paper is available at https://github.com/vpulab/Semantic-Aware-Scene-Recognition