美的画像キャプション(AIC)は、写真の重要なテキストフィードバックを生成するマルチモーダルタスクを指します。自然画像キャプション(NIC)では、ディープモデルはMS-COCOなどの大規模な精選されたデータセットを使用してエンドツーエンドでトレーニングされますが、AICにはそのような大規模でクリーンなデータセットは存在しません。この目標に向けて、写真のWebサイトから簡単に入手できる画像とノイズの多いコメントを活用して、ベンチマークAICデータセットを作成する自動クリーニング戦略を提案します。ノイズの多いWebデータをクリーニングするための確率的キャプションフィルタリング方法を提案し、大規模でクリーンなデータセット「AVA-Captions」をコンパイルします(230、000画像、画像あたり5キャプション)。さらに、美的属性間の潜在的な関連性を活用することにより、AICフレームワークの最初のコンポーネントである畳み込みニューラルネットワーク(CNN)ベースの視覚的特徴抽出器をトレーニングする戦略を提案します。この戦略は弱く監督されており、高価な根拠のある注釈を必要とせずに、豊かな美的表現を学習するために効果的に使用できます。最後に、自動メトリックと主観的評価を使用して、提案された貢献の徹底的な分析を紹介します。
Aesthetic image captioning (AIC) refers to the multi-modal task of generating critical textual feedbacks for photographs. While in natural image captioning (NIC), deep models are trained in an end-to-end manner using large curated datasets such as MS-COCO, no such large-scale, clean dataset exists for AIC. Towards this goal, we propose an automatic cleaning strategy to create a benchmarking AIC dataset, by exploiting the images and noisy comments easily available from photography websites. We propose a probabilistic caption-filtering method for cleaning the noisy web-data, and compile a large-scale, clean dataset "AVA-Captions", (230, 000 images with 5 captions per image). Additionally, by exploiting the latent associations between aesthetic attributes, we propose a strategy for training the convolutional neural network (CNN) based visual feature extractor, the first component of the AIC framework. The strategy is weakly supervised and can be effectively used to learn rich aesthetic representations, without requiring expensive ground-truth annotations. We finally show-case a thorough analysis of the proposed contributions using automatic metrics and subjective evaluations.