arXiv reaDer
ArtEmis:視覚芸術のための感情的な言語
ArtEmis: Affective Language for Visual Art
視覚的コンテンツ、その感情的効果、および言語での後者の説明の間の相互作用の詳細な理解を提供することを目的とした、新しい大規模データセットとそれに付随する機械学習モデルを提示します。コンピュータービジョンのほとんどの既存の注釈データセットとは対照的に、視覚芸術作品によって引き起こされる感情的な体験に焦点を当て、特定の画像に対して感じる支配的な感情を示し、決定的には、感情について根拠のある口頭での説明を提供するように注釈者に依頼します選択。以下に示すように、これは、客観的なコンテンツと画像の感情的な影響の両方についての豊富なシグナルのセットにつながり、抽象的な概念(「自由」や「愛」など)、またはそれを超える参照との関連付けを作成します視覚的な比喩や比喩、または個人的な経験への主観的な言及を含む、直接目に見えるもの。視覚芸術(絵画、芸術写真など)は、視聴者から感情的な反応を引き出すために作成された画像の代表的な例であるため、私たちは視覚芸術に焦点を当てています。 ArtEmisと呼ばれる私たちのデータセットには、WikiArtの81Kのアートワークに、人間からの439Kの感情の帰属と説明が含まれています。このデータに基づいて、視覚刺激からの感情を表現および説明できる一連のキャプションシステムをトレーニングおよびデモンストレーションします。驚くべきことに、これらのシステムによって生成されるキャプションは、既存のデータセットでトレーニングされたシステムをはるかに超えて、画像のセマンティックで抽象的なコンテンツを反映することに成功することがよくあります。収集されたデータセットと開発されたメソッドは、https://artemisdataset.orgで入手できます。
We present a novel large-scale dataset and accompanying machine learning models aimed at providing a detailed understanding of the interplay between visual content, its emotional effect, and explanations for the latter in language. In contrast to most existing annotation datasets in computer vision, we focus on the affective experience triggered by visual artworks and ask the annotators to indicate the dominant emotion they feel for a given image and, crucially, to also provide a grounded verbal explanation for their emotion choice. As we demonstrate below, this leads to a rich set of signals for both the objective content and the affective impact of an image, creating associations with abstract concepts (e.g., "freedom" or "love"), or references that go beyond what is directly visible, including visual similes and metaphors, or subjective references to personal experiences. We focus on visual art (e.g., paintings, artistic photographs) as it is a prime example of imagery created to elicit emotional responses from its viewers. Our dataset, termed ArtEmis, contains 439K emotion attributions and explanations from humans, on 81K artworks from WikiArt. Building on this data, we train and demonstrate a series of captioning systems capable of expressing and explaining emotions from visual stimuli. Remarkably, the captions produced by these systems often succeed in reflecting the semantic and abstract content of the image, going well beyond systems trained on existing datasets. The collected dataset and developed methods are available at https://artemisdataset.org.
updated: Tue Jan 19 2021 01:03:40 GMT+0000 (UTC)
published: Tue Jan 19 2021 01:03:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト