Differentiable Scene Graphs
 複雑な視覚シーンについての推論には、エンティティとそれらの関係の知覚が含まれます。シーングラフは、エンティティ(ノード)とリレーション(エッジ)の両方にラベルを割り当てることにより、推論タスクの自然な表現を提供します。残念ながら、SGに基づく推論システムは通常、2段階の手順でトレーニングされます。まず、モデルをトレーニングして画像からSGを予測します。次に、予測されたSGに基づいて推論する別のモデルが作成されます。多くのドメインでは、システムをエンドツーエンドで共同でトレーニングすることが望ましいですが、SGは視覚的推論システムの中間コンポーネントとしては一般的に使用されません。なぜなら、離散的でまばらで、シーングラフ表現は微分不可能であり、最適化する。ここでは、微分可能なシーングラフ(DSG)を提案します。これは、微分可能なエンドツーエンドの最適化に適した画像表現であり、ダウンストリームタスクからの監視のみが必要です。 DSGは、すべての領域および領域のペアに対して密な表現を提供し、対象のオブジェクトまたは関係が含まれていない画像の領域でモデリング能力を費やしません。 3つのベンチマークデータセット、Visual Genome、VRD、およびCLEVRで参照関係(RR)を識別するという困難なタスクに関するモデルを評価します。マルチタスクの目標を記述し、ダウンストリームRRタスクによって監督されるエンドツーエンドの方法でトレーニングします。 DSGを中間表現として使用すると、最新のパフォーマンスが得られます。
Reasoning about complex visual scenes involves perception of entities and their relations. Scene graphs provide a natural representation for reasoning tasks, by assigning labels to both entities (nodes) and relations (edges). Unfortunately, reasoning systems based on SGs are typically trained in a two-step procedure: First, training a model to predict SGs from images; Then, a separate model is created to reason based on predicted SGs. In many domains, it is preferable to train systems jointly in an end-to-end manner, but SGs are not commonly used as intermediate components in visual reasoning systems because being discrete and sparse, scene-graph representations are non-differentiable and difficult to optimize. Here we propose Differentiable Scene Graphs (DSGs), an image representation that is amenable to differentiable end-to-end optimization, and requires supervision only from the downstream tasks. DSGs provide a dense representation for all regions and pairs of regions, and do not spend modelling capacity on areas of the images that do not contain objects or relations of interest. We evaluate our model on the challenging task of identifying referring relationships (RR) in three benchmark datasets, Visual Genome, VRD and CLEVR. We describe a multi-task objective, and train in an end-to-end manner supervised by the downstream RR task. Using DSGs as an intermediate representation leads to new state-of-the-art performance.
updated: Sat Mar 14 2020 16:25:32 GMT+0000 (UTC)
published: Tue Feb 26 2019 20:22:33 GMT+0000 (UTC)
