人間は、画像の文字通りの内容を超えて何が存在するかについて、誘拐的に推論し、仮説を立てる驚くべき能力を持っています。シーン全体に散らばっている具体的な視覚的手がかりを特定することで、私たちの日常の経験と世界に関する知識に基づいて、文字通りのシーンを超えて、ありそうな推論を引き出すしかありません。たとえば、道路の横に「20 mph」の標識が表示されている場合、家が描かれていなくても、通りは(高速道路ではなく)住宅地にあると見なすことができます。マシンは同様の視覚的推論を実行できますか?文字通りの画像コンテンツを超えたアブダクション推論のためにマシンの容量をテストするための103K画像の注釈付きコーパスであるSherlockを紹介します。フリービューイングパラダイムを採用しています。参加者は、最初に画像内の顕著な手がかり(オブジェクト、アクションなど)を観察および識別し、次に手がかりが与えられた場合にシーンに関するもっともらしい推論を提供します。合計で、363K(手がかり、推論)のペアを収集します。これは、この種では初めてのアブダクション視覚推論データセットを形成します。コーパスを使用して、アブダクション推論の3つの補完的な軸をテストします。モデルの能力を評価して、次のことを行います。i)大規模な候補コーパスから関連する推論を取得します。 ii)バウンディングボックスを介して推論の証拠をローカライズし、iii)19Kリッカート尺度の判断の新しく収集された診断コーパスで人間の判断と一致するようにもっともらしい推論を比較します。マルチタスクを目的としたCLIP-RN50x64の微調整は、強力なベースラインを上回っていますが、モデルのパフォーマンスと人間の合意の間にはかなりの余裕があります。今後の作業に向けた分析を提供します。
Humans have remarkable capacity to reason abductively and hypothesize about what lies beyond the literal content of an image. By identifying concrete visual clues scattered throughout a scene, we almost can't help but draw probable inferences beyond the literal scene based on our everyday experience and knowledge about the world. For example, if we see a "20 mph" sign alongside a road, we might assume the street sits in a residential area (rather than on a highway), even if no houses are pictured. Can machines perform similar visual reasoning? We present Sherlock, an annotated corpus of 103K images for testing machine capacity for abductive reasoning beyond literal image contents. We adopt a free-viewing paradigm: participants first observe and identify salient clues within images (e.g., objects, actions) and then provide a plausible inference about the scene, given the clue. In total, we collect 363K (clue, inference) pairs, which form a first-of-its-kind abductive visual reasoning dataset. Using our corpus, we test three complementary axes of abductive reasoning. We evaluate the capacity of models to: i) retrieve relevant inferences from a large candidate corpus; ii) localize evidence for inferences via bounding boxes, and iii) compare plausible inferences to match human judgments on a newly-collected diagnostic corpus of 19K Likert-scale judgments. While we find that fine-tuning CLIP-RN50x64 with a multitask objective outperforms strong baselines, significant headroom exists between model performance and human agreement. We provide analysis that points towards future work.