arXiv reaDer
エキソセントリックな視点からのグラウンディング アフォーダンス
Grounded Affordance from Exocentric View
アフォーダンスグラウンディングは、物体の「行動可能性」領域を特定することを目的としています。これは、身体化された知性に向けた重要なステップです。インタラクティブなアフォーダンスの多様性により、さまざまな個人の独自性が多様な相互作用につながり、オブジェクトのパーツとアフォーダンス ラベルの間に明示的なリンクを確立することが困難になります。人間には、さまざまな外中心的な相互作用を不変の自己中心的なアフォーダンスに変換して、相互作用の多様性の影響に対抗する能力があります。このような能力を持つエージェントを強化するために、この論文では、エキソセントリックな視点からのアフォーダンスグラウンディングのタスクを提案します。アフォーダンスレーベルを監修。ただし、ペルソナ間には、主に異なる地域や異なる見解に関する「相互作用バイアス」があります。この目的のために、エキソセントリックな相互作用からアフォーダンス固有の機能を抽出し、それらをエゴセントリックなビューに転送するクロスビュー アフォーダンス知識転送フレームワークを考案します。具体的には、アフォーダンス領域の認識は、アフォーダンスの相互関係を維持することによって強化されます。さらに、AGD20K という名前のアフォーダンス グラウンディング データセットは、36 のアフォーダンス カテゴリから 20K を超える画像を収集してラベル付けすることによって構築されます。実験結果は、私たちの方法が客観的指標と視覚的品質に関して代表的なモデルよりも優れていることを示しています。コードは https://github.com/lhc1224/Cross-view-affordance-grounding で公開されています。
Affordance grounding aims to locate objects' "action possibilities" regions, which is an essential step toward embodied intelligence. Due to the diversity of interactive affordance, the uniqueness of different individuals leads to diverse interactions, which makes it difficult to establish an explicit link between object parts and affordance labels. Human has the ability that transforms the various exocentric interactions into invariant egocentric affordance to counter the impact of interactive diversity. To empower an agent with such ability, this paper proposes a task of affordance grounding from exocentric view, i.e., given exocentric human-object interaction and egocentric object images, learning the affordance knowledge of the object and transferring it to the egocentric image using only the affordance label as supervision. However, there is some "interaction bias" between personas, mainly regarding different regions and different views. To this end, we devise a cross-view affordance knowledge transfer framework that extracts affordance-specific features from exocentric interactions and transfers them to the egocentric view. Specifically, the perception of affordance regions is enhanced by preserving affordance co-relations. In addition, an affordance grounding dataset named AGD20K is constructed by collecting and labeling over 20K images from 36 affordance categories. Experimental results demonstrate that our method outperforms the representative models regarding objective metrics and visual quality. Code is released at https://github.com/lhc1224/Cross-view-affordance-grounding.
updated: Sun Aug 28 2022 10:32:47 GMT+0000 (UTC)
published: Sun Aug 28 2022 10:32:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト