「アクション」は、人間が世界とどのように相互作用するかにおいて重要な役割を果たします。したがって、日常業務で私たちを支援する自律的なエージェントには、「アクションと変更についての推論」(RAC) を実行する機能も必要です。これは一般的に人工知能 (AI) における重要な研究の方向性ですが、視覚的および言語的入力による RAC の研究は比較的最近のことです。 CLEVR_HYP (Sampat et. al., 2021) は、主要な焦点として行動を伴う仮説的な視覚言語推論のためのそのようなテストベッドの 1 つです。この作業では、アクションの効果についての推論を改善できる新しい学習戦略を提案します。ベクトルとしてのアクションの表現を学習するために、エンコーダー/デコーダー アーキテクチャを実装します。前述のエンコーダー/デコーダー アーキテクチャを既存のモダリティ パーサーおよびシーン グラフの質問応答モデルと組み合わせて、CLEVR_HYP データセットで提案されたシステムを評価します。徹底的な実験を行って、提案されたアプローチの有効性を実証し、パフォーマンス、データ効率、および一般化機能の点で以前のベースラインに対する利点について説明します。
'Actions' play a vital role in how humans interact with the world. Thus, autonomous agents that would assist us in everyday tasks also require the capability to perform 'Reasoning about Actions & Change' (RAC). This has been an important research direction in Artificial Intelligence (AI) in general, but the study of RAC with visual and linguistic inputs is relatively recent. The CLEVR_HYP (Sampat et. al., 2021) is one such testbed for hypothetical vision-language reasoning with actions as the key focus. In this work, we propose a novel learning strategy that can improve reasoning about the effects of actions. We implement an encoder-decoder architecture to learn the representation of actions as vectors. We combine the aforementioned encoder-decoder architecture with existing modality parsers and a scene graph question answering model to evaluate our proposed system on the CLEVR_HYP dataset. We conduct thorough experiments to demonstrate the effectiveness of our proposed approach and discuss its advantages over previous baselines in terms of performance, data efficiency, and generalization capability.