機械学習は劇的に進歩し、視覚的な質問応答(VQA)などのマルチモーダルタスクにおける人間との精度のギャップを狭めています。しかし、人間は不確かなとき(つまり、質問に答えないとき)に「わからない」と言うことができますが、実際のVQAの使用にとってこの問題の重要性にもかかわらず、マルチモーダル研究ではそのような能力はほとんど無視されてきました。設定。この作業では、信頼できるVQAの問題の定式化を推進します。ここでは、間違った答えを提供するよりも棄権を優先します。まず、いくつかのVQAモデルの棄権機能を有効にし、それらのカバレッジ、回答された質問の部分、およびリスク、その部分のエラーの両方を分析します。そのために、私たちはいくつかの棄権アプローチを探求します。最高のパフォーマンスを発揮するモデルは、VQA v2データセットで71%を超える精度を達成しますが、モデルのソフトマックススコアを直接使用して棄権するオプションを導入すると、エラーのリスクを低く抑えるために、質問の8%未満に回答するように制限されます(つまり、1%)。これにより、マルチモーダル選択関数を使用して、予測された回答の正しさを直接推定するようになります。これにより、たとえば、1%のリスクでカバレッジを6.8%から16.3%に2.4倍に増やすことができます。カバレッジとリスクの両方を分析することは重要ですが、これらのメトリックにはトレードオフがあり、VQAモデルの比較が困難になります。これに対処するために、棄権と比較して不正解に大きなコストをかけるVQAの有効信頼性メトリックも提案します。 VQAのこの新しい問題の定式化、測定基準、および分析は、答えがわからない場合にのみ棄権する自己認識を備えた、効果的で信頼性の高いVQAモデルを構築するための基礎を提供します。
Machine learning has advanced dramatically, narrowing the accuracy gap to humans in multimodal tasks like visual question answering (VQA). However, while humans can say "I don't know" when they are uncertain (i.e., abstain from answering a question), such ability has been largely neglected in multimodal research, despite the importance of this problem to the usage of VQA in real settings. In this work, we promote a problem formulation for reliable VQA, where we prefer abstention over providing an incorrect answer. We first enable abstention capabilities for several VQA models, and analyze both their coverage, the portion of questions answered, and risk, the error on that portion. For that, we explore several abstention approaches. We find that although the best performing models achieve over 71% accuracy on the VQA v2 dataset, introducing the option to abstain by directly using a model's softmax scores limits them to answering less than 8% of the questions to achieve a low risk of error (i.e., 1%). This motivates us to utilize a multimodal selection function to directly estimate the correctness of the predicted answers, which we show can increase the coverage by, for example, 2.4x from 6.8% to 16.3% at 1% risk. While it is important to analyze both coverage and risk, these metrics have a trade-off which makes comparing VQA models challenging. To address this, we also propose an Effective Reliability metric for VQA that places a larger cost on incorrect answers compared to abstentions. This new problem formulation, metric, and analysis for VQA provide the groundwork for building effective and reliable VQA models that have the self-awareness to abstain if and only if they don't know the answer.