アブダクティブ推論は、与えられた一連の不完全な観測に対して最も可能性の高い推論を行うことを目的としています。この作品では、与えられた状況やシナリオから、「現在の状態に到達するために人間が実行した一連の行動は何か?」という問いに答えることを目指しており、これを誘拐行動推論と呼んでいます。与えられたシーンにおける人物とオブジェクトの関係とその状態に基づいてソリューションを提供します。具体的には、まずシーン内のオブジェクトと人間を検出し、次に人間中心の関係ごとに表現を生成します。これらの人間中心の関係を使用して、人間がこの状態に到達するために実行した可能性が最も高い一連のアクションを導き出します。人間中心のリレーショナル表現を生成するために、トランスフォーマー、新しいグラフ ニューラル ネットワーク ベースのエンコーダー/デコーダー、新しいリレーショナル双線形プーリング法などのいくつかのモデルを調査します。アクションゲノムデータセットでのこの困難なタスクで、これらの新しいモデルを使用して有望な結果を得ています。
Abductive reasoning aims to make the most likely inference for a given set of incomplete observations. In this work, given a situation or a scenario, we aim to answer the question 'what is the set of actions that were executed by the human in order to come to this current state?', which we coin as abductive action inference. We provide a solution based on the human-object relations and their states in the given scene. Specifically, we first detect objects and humans in the scene, and then generate representations for each human-centric relation. Using these human-centric relations, we derive the most likely set of actions the human may have executed to arrive in this state. To generate human-centric relational representations, we investigate several models such as Transformers, a novel graph neural network-based encoder-decoder, and a new relational bilinear pooling method. We obtain promising results using these new models on this challenging task on the Action Genome dataset.