arXiv reaDer
SOLVER:シーンとオブジェクトの相互に関連する視覚的感情推論ネットワーク
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network
Visual Emotion Analysis(VEA)は、ソーシャルネットワーク上で画像を共有することが普及していることで最近大きな注目を集めている、さまざまな視覚刺激に対して人々がどのように感情的に感じるかを調べることを目的としています。人間の感情には非常に複雑で抽象的な認知プロセスが含まれるため、感情的な画像の全体的または地域的な特徴から視覚的な感情を直接推測することは困難です。視覚的感情は、オブジェクト間の相互作用、および画像内のオブジェクトとシーン間の相互作用によって引き起こされることが心理学で実証されています。これに触発されて、画像から感情を予測するための新しいシーンオブジェクト相互関係視覚感情推論ネットワーク(SOLVER)を提案します。個別のオブジェクト間の感情的な関係をマイニングするために、最初にセマンティックの概念と視覚的な特徴に基づいて感情グラフを作成します。次に、グラフ畳み込みネットワーク(GCN)を使用して感情グラフの推論を行い、感情が強化されたオブジェクトの特徴を生成します。また、シーンとオブジェクトを統合するシーンオブジェクト融合モジュールを設計します。これは、シーンの特徴を活用して、提案されたシーンベースのアテンションメカニズムとオブジェクトの特徴の融合プロセスをガイドします。広範な実験と比較が8つの公開視覚感情データセットで行われ、その結果は、提案されたソルバーが常に最先端の方法を大幅に上回っていることを示しています。アブレーション研究は、私たちの方法の有効性を検証し、視覚化はその解釈可能性を証明します。これは、VEAの謎を探求するための新しい洞察ももたらします。特に、拡張実験を使用して、他の3つの潜在的なデータセットでSOLVERについてさらに説明します。ここでは、メソッドの堅牢性を検証し、いくつかの制限に気づきます。
Visual Emotion Analysis (VEA) aims at finding out how people feel emotionally towards different visual stimuli, which has attracted great attention recently with the prevalence of sharing images on social networks. Since human emotion involves a highly complex and abstract cognitive process, it is difficult to infer visual emotions directly from holistic or regional features in affective images. It has been demonstrated in psychology that visual emotions are evoked by the interactions between objects as well as the interactions between objects and scenes within an image. Inspired by this, we propose a novel Scene-Object interreLated Visual Emotion Reasoning network (SOLVER) to predict emotions from images. To mine the emotional relationships between distinct objects, we first build up an Emotion Graph based on semantic concepts and visual features. Then, we conduct reasoning on the Emotion Graph using Graph Convolutional Network (GCN), yielding emotion-enhanced object features. We also design a Scene-Object Fusion Module to integrate scenes and objects, which exploits scene features to guide the fusion process of object features with the proposed scene-based attention mechanism. Extensive experiments and comparisons are conducted on eight public visual emotion datasets, and the results demonstrate that the proposed SOLVER consistently outperforms the state-of-the-art methods by a large margin. Ablation studies verify the effectiveness of our method and visualizations prove its interpretability, which also bring new insight to explore the mysteries in VEA. Notably, we further discuss SOLVER on three other potential datasets with extended experiments, where we validate the robustness of our method and notice some limitations of it.
updated: Sun Oct 24 2021 02:41:41 GMT+0000 (UTC)
published: Sun Oct 24 2021 02:41:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト