Learning Predicates as Functions to Enable Few-shot Scene Graph Prediction
 シーングラフの予測---ビジュアルシーン内のオブジェクトと述語のセットを分類する---かなりのトレーニングデータが必要です。ただし、ほとんどの述語は数回しか発生しないため、学習が困難になります。述語の数ショット学習をサポートする最初のシーングラフ予測モデルを紹介します。既存のシーングラフ生成モデルは、事前にトレーニングされたオブジェクト検出器またはセマンティックオブジェクト情報をキャプチャする単語埋め込みを使用して、どの関係が得られるかについての情報をエンコードすることでオブジェクトを表します。そのため、これらのオブジェクト表現は、新しい少数ショットの関係に一般化できません。視覚的な関係に従って構造化されたオブジェクト表現を誘導するフレームワークを紹介します。過去の方法とは異なり、フレームワークには、類似した関係をより密接に提供するオブジェクトが埋め込まれています。このプロパティにより、モデルは少数ショット設定で良好に機能します。たとえば、「乗る」述語変換を「人」に適用すると、「スケートボード」や「馬」などのライディングを可能にするオブジェクトへの表現が変更されます。新しいグラフ畳み込みフレームワーク内でメッセージパッシング関数としてトレーニングされた述語を学習することにより、オブジェクト表現を生成します。オブジェクト表現を使用して、ラベルが付いた1つだけの例で、まれな述語の少数ショット述語分類子を構築します。強力な転移学習ベースラインと比較した場合、3.7の増加である22.70リコール@ 50の5ショットパフォーマンスを達成します。
Scene graph prediction --- classifying the set of objects and predicates in a visual scene --- requires substantial training data. However, most predicates only occur a handful of times making them difficult to learn. We introduce the first scene graph prediction model that supports few-shot learning of predicates. Existing scene graph generation models represent objects using pretrained object detectors or word embeddings that capture semantic object information at the cost of encoding information about which relationships they afford. So, these object representations are unable to generalize to new few-shot relationships. We introduce a framework that induces object representations that are structured according to their visual relationships. Unlike past methods, our framework embeds objects that afford similar relationships closer together. This property allows our model to perform well in the few-shot setting. For example, applying the 'riding' predicate transformation to 'person' modifies the representation towards objects like 'skateboard' and 'horse' that enable riding. We generate object representations by learning predicates trained as message passing functions within a new graph convolution framework. The object representations are used to build few-shot predicate classifiers for rare predicates with as few as 1 labeled example. We achieve a 5-shot performance of 22.70 recall@50, a 3.7 increase when compared to strong transfer learning baselines.
updated: Thu Dec 05 2019 19:35:36 GMT+0000 (UTC)
published: Wed Jun 12 2019 01:27:15 GMT+0000 (UTC)
