オブジェクトとシーンを認識することは、画像を理解する上で2つの困難ですが、不可欠なタスクです。特に、これらのタスクを処理する際のRGB-Dセンサーの使用は、視覚的な理解を深めるための重要な焦点領域として浮上しています。一方、深層ニューラルネットワーク、特に畳み込みニューラルネットワーク(CNN)は広く普及しており、手作りの特徴を効果的な深層特徴に置き換えることで、多くの視覚的タスクに適用されています。ただし、マルチレイヤーCNNモデルの深い機能を効果的に活用する方法は未解決の問題です。この論文では、オブジェクトとシーンの認識タスクのためにマルチモーダルRGB-D画像から識別機能表現を抽出する新しい2段階のフレームワークを提案します。最初の段階では、事前にトレーニングされたCNNモデルがバックボーンとして採用され、複数のレベルで視覚的特徴を抽出しました。第2段階では、これらの機能を、再帰型ニューラルネットワーク(RNN)の完全にランダム化された構造を使用して高レベルの表現に効率的にマッピングします。 CNNアクティベーションの高次元性に対処するために、RNNのランダム性の概念を拡張することにより、ランダム加重プーリングスキームが提案されています。マルチモーダルフュージョンは、RGBストリームと深度ストリームの個々の認識信頼度(つまりSVMスコア)に基づいて重みを個別に計算することにより、ソフト投票アプローチによって実行されています。これにより、最終的なRGB-D分類パフォーマンスで一貫したクラスラベル推定が生成されます。広範な実験により、RNNステージの完全にランダム化された構造が、CNNアクティベーションを識別可能なソリッドフィーチャに正常にエンコードすることが確認されます。人気のあるワシントンRGB-DオブジェクトとSUNRGB-Dシーンのデータセットに関する実験結果の比較は、提案されたアプローチが、オブジェクトとシーンの認識タスクの両方で、最先端の方法と比較して優れた、または同等のパフォーマンスを達成することを示しています。コードはhttps://github.com/acaglayan/CNN_randRNNで入手できます。
Recognizing objects and scenes are two challenging but essential tasks in image understanding. In particular, the use of RGB-D sensors in handling these tasks has emerged as an important area of focus for better visual understanding. Meanwhile, deep neural networks, specifically convolutional neural networks (CNNs), have become widespread and have been applied to many visual tasks by replacing hand-crafted features with effective deep features. However, it is an open problem how to exploit deep features from a multi-layer CNN model effectively. In this paper, we propose a novel two-stage framework that extracts discriminative feature representations from multi-modal RGB-D images for object and scene recognition tasks. In the first stage, a pretrained CNN model has been employed as a backbone to extract visual features at multiple levels. The second stage maps these features into high level representations with a fully randomized structure of recursive neural networks (RNNs) efficiently. To cope with the high dimensionality of CNN activations, a random weighted pooling scheme has been proposed by extending the idea of randomness in RNNs. Multi-modal fusion has been performed through a soft voting approach by computing weights based on individual recognition confidences (i.e. SVM scores) of RGB and depth streams separately. This produces consistent class label estimation in final RGB-D classification performance. Extensive experiments verify that fully randomized structure in RNN stage encodes CNN activations to discriminative solid features successfully. Comparative experimental results on the popular Washington RGB-D Object and SUN RGB-D Scene datasets show that the proposed approach achieves superior or on-par performance compared to state-of-the-art methods both in object and scene recognition tasks. Code is available at https://github.com/acaglayan/CNN_randRNN.