Enforcing Reasoning in Visual Commonsense Reasoning
 Visual Commonsense Reasoningのタスクは、モデルが画像を与えられた質問に答えられるだけでなく、推論することも学ばなければならないという意味で非常に困難です。このタスクで導入されたベースラインは、2つのネットワークが回答と理論的根拠を別々に予測するために訓練されているため、非常に制限されています。質問および画像は、回答予測ネットワークをトレーニングするための入力として使用され、質問、画像および正解は、理論的予測ネットワークで入力として使用されます。理論的根拠は正解に基づいているため、視覚的な質問応答タスクをエラーなしで解決できるという前提に基づいています-これは野心的です。さらに、このようなアプローチにより、答えと理論的予測の両方が2つの完全に独立したVQAタスクとなり、認知タスクが無意味になります。このペーパーでは、回答とその理由の両方を共同で検討する、エンドツーエンドのトレーニング可能なモデルを提案することにより、これらの問題に対処しようとしています。具体的には、最初に質問の答えを予測し、次に選択した答えを使用して理論的根拠を予測します。ただし、このようなモデルの些細な設計は微分不可能になり、トレーニングが困難になります。この問題を解決するには、softmax、gumbel-softmax、強化学習ベースのサンプリング、および回答と理論的根拠のすべてのペアに対する直接クロスエントロピーの4つのアプローチを提案します。私たちのモデルが現在の最先端技術に対して競争力を発揮することを実験を通して示しています。最後に、提示されたアプローチの分析で結論を出し、さらなる作業の方法を説明します。
The task of Visual Commonsense Reasoning is extremely challenging in the sense that the model has to not only be able to answer a question given an image, but also be able to learn to reason. The baselines introduced in this task are quite limiting because two networks are trained for predicting answers and rationales separately. Question and image is used as input to train answer prediction network while question, image and correct answer are used as input in the rationale prediction network. As rationale is conditioned on the correct answer, it is based on the assumption that we can solve Visual Question Answering task without any error - which is over ambitious. Moreover, such an approach makes both answer and rationale prediction two completely independent VQA tasks rendering cognition task meaningless. In this paper, we seek to address these issues by proposing an end-to-end trainable model which considers both answers and their reasons jointly. Specifically, we first predict the answer for the question and then use the chosen answer to predict the rationale. However, a trivial design of such a model becomes non-differentiable which makes it difficult to train. We solve this issue by proposing four approaches - softmax, gumbel-softmax, reinforcement learning based sampling and direct cross entropy against all pairs of answers and rationales. We demonstrate through experiments that our model performs competitively against current state-of-the-art. We conclude with an analysis of presented approaches and discuss avenues for further work.
updated: Fri Dec 27 2019 10:09:58 GMT+0000 (UTC)
published: Mon Oct 21 2019 02:33:18 GMT+0000 (UTC)
