審美的品質評価(AQA)は、複雑な審美的要因のために困難な作業です。現在、固定サイズの入力を必要とするディープニューラルネットワークを使用してAQAを実行するのが一般的です。既存の方法は、主にサイズ変更、トリミング、パディングによって画像を変換するか、適応型プーリングを使用して、固定サイズの入力から美的特徴を交互にキャプチャします。ただし、これらの変換は美的機能を損なう可能性があります。この問題に対処するために、画像パディングと画像領域(RoM)プーリングを組み合わせることにより、フル解像度の画像AQAを実現するためのシンプルで効果的な方法を提案します。パディングは入力を同じサイズに変えます。 RoMプーリングは、画像機能をプールし、余分なパッド付き機能を破棄して、パディングの副作用を排除します。さらに、画像のアスペクト比はエンコードされ、視覚的な機能と融合されて、RoMプーリングの形状情報の損失を改善します。さらに、同じ画像が異なるテーマの下で異なる美的評価を受ける可能性があることを観察します。これをテーマ基準バイアスと呼びます。したがって、テーマ情報を使用してモデル予測をガイドするテーマ認識モデルが提案されます。最後に、形状とテーマの両方の情報を効果的に利用するために、注意ベースの特徴融合モジュールを設計します。広範な実験により、提案された方法が最先端の方法よりも有効であることが証明されています。
Aesthetic quality assessment (AQA) is a challenging task due to complex aesthetic factors. Currently, it is common to conduct AQA using deep neural networks that require fixed-size inputs. Existing methods mainly transform images by resizing, cropping, and padding or employ adaptive pooling to alternately capture the aesthetic features from fixed-size inputs. However, these transformations potentially damage aesthetic features. To address this issue, we propose a simple but effective method to accomplish full-resolution image AQA by combining image padding with region of image (RoM) pooling. Padding turns inputs into the same size. RoM pooling pools image features and discards extra padded features to eliminate the side effects of padding. In addition, the image aspect ratios are encoded and fused with visual features to remedy the shape information loss of RoM pooling. Furthermore, we observe that the same image may receive different aesthetic evaluations under different themes, which we call theme criterion bias. Hence, a theme-aware model that uses theme information to guide model predictions is proposed. Finally, we design an attention-based feature fusion module to effectively utilize both the shape and theme information. Extensive experiments prove the effectiveness of the proposed method over state-of-the-art methods.