スーパーピクセルは、画像内のピクセルの高次の知覚グループであり、多くの場合、生のピクセルよりもはるかに多くの情報を伝達します。隣接するスーパーピクセルが互いに隣接しているなど、画像の異なるスーパーピクセル間の関係には固有の関係構造があります。ここでの私たちの関心は、さまざまなスーパーピクセルのこれらの相対位置を画像の関係情報として扱うことです。この関係情報は、猫の画像内の2つの目を表すスーパーピクセル間の関係など、画像に関する高次の空間情報を伝達できます。つまり、2つの目が一直線に隣接して配置されているか、口が鼻の下にあります。このホワイトペーパーの動機は、スーパーピクセルからのこの高次情報を組み込むことにより、コンピュータービジョンモデル、特にディープニューラルネットワーク(DNN)に基づくモデルを支援することです。 (a)畳み込みニューラルネットワーク(CNN)を利用して画像内の空間情報を処理し、(b)グラフニューラルネットワーク(GNN)を利用して画像内のリレーショナルスーパーピクセル情報を処理するハイブリッドモデルを構築します。提案されたモデルは、一般的なハイブリッド損失関数を使用して学習されます。私たちの実験は広範囲にわたっており、数字と物体の認識、生体認証、医用画像などのさまざまなドメインからの7つの異なる画像分類データセットで提案されたハイブリッドビジョンモデルの予測パフォーマンスを評価します。結果は、GNNによって処理されたリレーショナルスーパーピクセル情報が、標準のCNNベースのビジョンシステムのパフォーマンスを向上させることができることを示しています。
Superpixels are higher-order perceptual groups of pixels in an image, often carrying much more information than the raw pixels. There is an inherent relational structure to the relationship among different superpixels of an image such as adjacent superpixels are neighbours of each other. Our interest here is to treat these relative positions of various superpixels as relational information of an image. This relational information can convey higher-order spatial information about the image, such as the relationship between superpixels representing two eyes in an image of a cat. That is, two eyes are placed adjacent to each other in a straight line or the mouth is below the nose. Our motive in this paper is to assist computer vision models, specifically those based on Deep Neural Networks (DNNs), by incorporating this higher-order information from superpixels. We construct a hybrid model that leverages (a) Convolutional Neural Network (CNN) to deal with spatial information in an image and (b) Graph Neural Network (GNN) to deal with relational superpixel information in the image. The proposed model is learned using a generic hybrid loss function. Our experiments are extensive, and we evaluate the predictive performance of our proposed hybrid vision model on seven different image classification datasets from a variety of domains such as digit and object recognition, biometrics, medical imaging. The results demonstrate that the relational superpixel information processed by a GNN can improve the performance of a standard CNN-based vision system.