Visual Dialogを解決するための確率的フレームワーク
Probabilistic framework for solving Visual Dialog
  本稿では、「Visual Dialog」の課題を解決するための確率的フレームワークを提案します。このタスクを解決するには、答える視覚的モダリティ、言語モダリティ、および常識の知識の推論と理解が必要です。この課題を解決するために、視覚表現と言語表現を組み合わせたマルチモーダルの深層学習手法のバリエーションにより、さまざまなアーキテクチャが提案されています。ただし、このタスクを解決するには不確実性の原因を理解して分析することが重要だと考えています。私たちのアプローチは、不確実性を推定することを可能にし、さまざまな答えを生成するのにも役立ちます。提案されたアプローチは、画像、質問、および会話履歴の表現を提供する確率的表現モジュール、確率的表現が与えられた場合に候補回答の多様な潜在的表現が確実に得られるモジュール、および適切な回答を選択する不確実性表現モジュールを通じて取得されます不確実性を最小限に抑えます。詳細なアブレーション分析、最新技術との比較、および方法の理解に役立つ不確実性の視覚化により、モデルを徹底的に評価します。提案された確率的フレームワークを使用して、改善された視覚的ダイアログシステムを取得します。
In this paper, we propose a probabilistic framework for solving the task of `Visual Dialog'. Solving this task requires reasoning and understanding of visual modality, language modality, and common sense knowledge to answer. Various architectures have been proposed to solve this task by variants of multi-modal deep learning techniques that combine visual and language representations. However, we believe that it is crucial to understand and analyze the sources of uncertainty for solving this task. Our approach allows for estimating uncertainty and also aids a diverse generation of answers. The proposed approach is obtained through a probabilistic representation module that provides us with representations for image, question and conversation history, a module that ensures that diverse latent representations for candidate answers are obtained given the probabilistic representations and an uncertainty representation module that chooses the appropriate answer that minimizes uncertainty. We thoroughly evaluate the model with a detailed ablation analysis, comparison with state of the art and visualization of the uncertainty that aids in the understanding of the method. Using the proposed probabilistic framework, we thus obtain an improved visual dialog system that is also more explainable.
updated: Thu Oct 17 2019 07:30:39 GMT+0000 (UTC)
published: Wed Sep 11 2019 00:25:12 GMT+0000 (UTC)
