arXiv reaDer
ビデオ質問応答のための構成の一貫性の測定
Measuring Compositional Consistency for Video Question Answering
最近のビデオ質問応答ベンチマークは、最先端のモデルが構成上の質問に答えるのに苦労していることを示しています。ただし、どのタイプの構成的推論がモデルの予測を誤る原因となるのかは不明なままです。さらに、モデルが構成的推論を使用して回答に到達したのか、データバイアスを利用して回答に到達したのかを識別することは困難です。この論文では、構成的質問をサブ質問の有向非巡回グラフにプログラムで分解する質問分解エンジンを開発します。グラフは、各親の質問がその子の構成になるように設計されています。 AGQA-Decompを提示します。これは、230万の質問グラフを含むベンチマークであり、グラフごとに平均11.49のサブ質問があり、合計で455万の新しいサブ質問があります。質問グラフを使用して、一連の新しい構成整合性メトリックを使用して3つの最先端モデルを評価します。モデルは、ほとんどの構成で正しく推論できないか、誤った推論に依存して答えに到達するか、しばしば矛盾するか、中間の推論ステップで失敗したときに高精度を達成することがわかります。
Recent video question answering benchmarks indicate that state-of-the-art models struggle to answer compositional questions. However, it remains unclear which types of compositional reasoning cause models to mispredict. Furthermore, it is difficult to discern whether models arrive at answers using compositional reasoning or by leveraging data biases. In this paper, we develop a question decomposition engine that programmatically deconstructs a compositional question into a directed acyclic graph of sub-questions. The graph is designed such that each parent question is a composition of its children. We present AGQA-Decomp, a benchmark containing 2.3M question graphs, with an average of 11.49 sub-questions per graph, and 4.55M total new sub-questions. Using question graphs, we evaluate three state-of-the-art models with a suite of novel compositional consistency metrics. We find that models either cannot reason correctly through most compositions or are reliant on incorrect reasoning to reach answers, frequently contradicting themselves or achieving high accuracies when failing at intermediate reasoning steps.
updated: Tue May 24 2022 10:46:56 GMT+0000 (UTC)
published: Thu Apr 14 2022 18:52:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト