アスペクト比と空間レイアウトは、写真の美的価値を決定する2つの主要な要因です。しかし、これらを画像の美的評価のタスクのための従来の畳み込みベースのフレームワークに組み込むことには問題があります。写真のアスペクト比は、バッチサンプリングのトレーニングを容易にするために、固定寸法にサイズ変更/トリミングされるときに歪んでしまいます。一方、畳み込みフィルターは情報をローカルで処理し、写真のグローバルな空間レイアウトをモデル化する機能に制限があります。この作業では、グラフニューラルネットワークに基づく2段階のフレームワークを提示し、これらの両方の問題に共同で対処します。まず、元のアスペクト比と解像度を維持しながら、入力画像をグラフとしてモデル化した特徴グラフ表現を提案します。次に、この特徴グラフを取り、視覚的注意を使用して入力画像の異なる領域間の意味関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案します。私たちの実験は、提案されたフレームワークが、美的視覚分析(AVA)ベンチマークでの美的スコア回帰における最先端の結果を前進させることを示しています。
Aspect ratio and spatial layout are two of the principal factors determining the aesthetic value of a photograph. But, incorporating these into the traditional convolution-based frameworks for the task of image aesthetics assessment is problematic. The aspect ratio of the photographs gets distorted while they are resized/cropped to a fixed dimension to facilitate training batch sampling. On the other hand, the convolutional filters process information locally and are limited in their ability to model the global spatial layout of a photograph. In this work, we present a two-stage framework based on graph neural networks and address both these problems jointly. First, we propose a feature-graph representation in which the input image is modelled as a graph, maintaining its original aspect ratio and resolution. Second, we propose a graph neural network architecture that takes this feature-graph and captures the semantic relationship between the different regions of the input image using visual attention. Our experiments show that the proposed framework advances the state-of-the-art results in aesthetic score regression on the Aesthetic Visual Analysis (AVA) benchmark.