arXiv reaDer
CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog
  Visual Dialogは、会話履歴をコンテキストとして使用して、画像に基づいた一連の質問に答えるマルチモーダルタスクです。それには、ビジョン、言語、推論、および根拠付けの課題が伴います。ただし、これらのサブタスクを大規模な実際のデータセットで単独で調査することは、すべての画像とダイアログの「状態」の非常に高価な完全な注釈を必要とするため、実行不可能です。 CLEVR-Dialogは、視覚的なダイアログでマルチラウンド推論を研究するための大規模な診断データセットを開発します。具体的には、CLEVRデータセットの画像のシーングラフに基づいたダイアロググラマーを構築します。この組み合わせにより、ビジュアルダイアログのすべての側面に完全な注釈が付けられたデータセットが作成されます。合計で、CLEVR-Dialogには、約85kのCLEVR画像用の10ラウンドダイアログの5つのインスタンスが含まれ、合計で425万の質問と回答のペアになります。 CLEVR-Dialogを使用して、標準のビジュアルダイアログモデルのパフォーマンスをベンチマークします。特に、視覚的な相互参照の解像度について(相互参照距離の関数として)。これは、このデータセットなしでは不可能だったビジュアルダイアログモデルに対するこの種の最初の分析です。 CLEVR-Dialogの調査結果が、視覚的ダイアログの将来のモデルの開発に役立つことを願っています。データセットとコードは公開されています。
Visual Dialog is a multimodal task of answering a sequence of questions grounded in an image, using the conversation history as context. It entails challenges in vision, language, reasoning, and grounding. However, studying these subtasks in isolation on large, real datasets is infeasible as it requires prohibitively-expensive complete annotation of the 'state' of all images and dialogs. We develop CLEVR-Dialog, a large diagnostic dataset for studying multi-round reasoning in visual dialog. Specifically, we construct a dialog grammar that is grounded in the scene graphs of the images from the CLEVR dataset. This combination results in a dataset where all aspects of the visual dialog are fully annotated. In total, CLEVR-Dialog contains 5 instances of 10-round dialogs for about 85k CLEVR images, totaling to 4.25M question-answer pairs. We use CLEVR-Dialog to benchmark performance of standard visual dialog models; in particular, on visual coreference resolution (as a function of the coreference distance). This is the first analysis of its kind for visual dialog models that was not possible without this dataset. We hope the findings from CLEVR-Dialog will help inform the development of future models for visual dialog. Our dataset and code are publicly available.
updated: Wed Sep 18 2019 18:04:43 GMT+0000 (UTC)
published: Thu Mar 07 2019 20:18:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト