人間は、複数の人物が含まれる視覚的なシーンから、前に起こったこと、精神的/身体的状態または意図などのコンテキスト記述が与えられると、各個人を区別することができます。上記の能力は、人間中心の常識的な知識と推論に大きく依存しています.たとえば、画像内の「癒しが必要な人」を特定するように求められた場合、まず、通常は怪我や苦しんでいる表情をしていることを知り、対応する視覚的な手がかりを見つけてから、最終的にその人をグラウンディングする必要があります.以前に起こったこと、および精神的/身体的状態または意図についてのコンテキスト記述が与えられた個人をグラウンディングするモデルの能力をテストする、新しい常識タスクである人間中心のコモンセンス グラウンディングを提示します。さらに、ベンチマークである HumanCog を作成します。これは、67,000 個の画像に注釈が付けられた 130,000 個の根拠のある常識的な説明を含むデータセットであり、さまざまな種類の常識的および視覚的なシーンをカバーしています。以前の事前トレーニング済みモデルおよび事前トレーニング済みモデルよりも優れた強力なベースラインとして、コンテキストオブジェクト認識メソッドを設定しました。さらなる分析は、豊かな視覚的常識とマルチモーダル常識の強力な統合が不可欠であることを示しており、それは将来の仕事に光を当てています.データとコードは https://github.com/Hxyou/HumanCog で入手できます。
From a visual scene containing multiple people, human is able to distinguish each individual given the context descriptions about what happened before, their mental/physical states or intentions, etc. Above ability heavily relies on human-centric commonsense knowledge and reasoning. For example, if asked to identify the "person who needs healing" in an image, we need to first know that they usually have injuries or suffering expressions, then find the corresponding visual clues before finally grounding the person. We present a new commonsense task, Human-centric Commonsense Grounding, that tests the models' ability to ground individuals given the context descriptions about what happened before, and their mental/physical states or intentions. We further create a benchmark, HumanCog, a dataset with 130k grounded commonsensical descriptions annotated on 67k images, covering diverse types of commonsense and visual scenes. We set up a context-object-aware method as a strong baseline that outperforms previous pre-trained and non-pretrained models. Further analysis demonstrates that rich visual commonsense and powerful integration of multi-modal commonsense are essential, which sheds light on future works. Data and code will be available https://github.com/Hxyou/HumanCog.