arXiv reaDer
機能的対応問題
The Functional Correspondence Problem
視覚データの対応を見つける機能は、ほとんどのコンピュータビジョンタスクの本質です。しかし、正しい対応は何ですか?視覚的対応のタスクは、同じオブジェクトインスタンスの2つの異なる画像に対して明確に定義されています。同じカテゴリに属するオブジェクトの2つの画像の場合、ほとんどの場合、視覚的な対応はかなり明確に定義されています。しかし、靴とボトルなど、まったく異なるカテゴリの2つのオブジェクト間の対応についてはどうでしょうか。対応はありますか?次のような人間の能力に触発されています。(a)セマンティックカテゴリを超えて一般化する。 (b)機能的アフォーダンスを推測するために、この論文では機能的対応の問題を紹介します。 2つのオブジェクトの画像が与えられた場合、簡単な質問をします。特定のタスクに対するこれら2つの画像間の対応のセットは何ですか?たとえば、ドキドキするタスクや注ぐタスクのボトルと靴の対応は何ですか。新しいデータセットを紹介します。10個のタスクと20個のオブジェクトカテゴリに対応するグラウンドトゥルースを持つFunKPointです。また、この問題を攻撃するためのモジュール式のタスク駆動型表現を紹介し、学習した表現がこのタスクに効果的であることを示します。しかし、最も重要なことは、監視信号がセマンティクスに拘束されていないため、学習した表現が少数ショットの分類問題でより一般化できることを示しています。この論文が私たちのコミュニティに意味論を超えて考え、ロボット工学タスクのためのカテゴリー間の一般化と学習表現にもっと焦点を合わせるように刺激することを願っています。
The ability to find correspondences in visual data is the essence of most computer vision tasks. But what are the right correspondences? The task of visual correspondence is well defined for two different images of same object instance. In case of two images of objects belonging to same category, visual correspondence is reasonably well-defined in most cases. But what about correspondence between two objects of completely different category -- e.g., a shoe and a bottle? Does there exist any correspondence? Inspired by humans' ability to: (a) generalize beyond semantic categories and; (b) infer functional affordances, we introduce the problem of functional correspondences in this paper. Given images of two objects, we ask a simple question: what is the set of correspondences between these two images for a given task? For example, what are the correspondences between a bottle and shoe for the task of pounding or the task of pouring. We introduce a new dataset: FunKPoint that has ground truth correspondences for 10 tasks and 20 object categories. We also introduce a modular task-driven representation for attacking this problem and demonstrate that our learned representation is effective for this task. But most importantly, because our supervision signal is not bound by semantics, we show that our learned representation can generalize better on few-shot classification problem. We hope this paper will inspire our community to think beyond semantics and focus more on cross-category generalization and learning representations for robotics tasks.
updated: Thu Sep 02 2021 17:18:06 GMT+0000 (UTC)
published: Thu Sep 02 2021 17:18:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト