arXiv reaDer
2D 投影入力からの 3D 変換の内部表現の学習
Learning Internal Representations of 3D Transformations from 2D Projected Inputs
3 次元の世界で対話するとき、人間は 2 次元の網膜画像に投影された視覚入力から 3D 構造を推定する必要があります。人間は、この制約の少ない問題を解決する際に、奥行きのあいまいさを解決するための手がかりとして、動きによって引き起こされる変換に対するオブジェクト形状の永続性を使用することが示されています。生物学的視覚システムが 3D 変換を内部的に表現する方法を理解することを目的として、2D 点の動きから 3D 構造を推測するために使用できる生成多様体モデルに基づく計算モデルを提案します。私たちのモデルは、最小限の監視で変換の表現を学習することもでき、人間が発達または進化の時間スケールで内部表現をどのように開発するかについての概念実証を提供します。回転運動に焦点を当て、私たちのモデルがどのように 2D 投影点の移動から深さを推測し、2D トレーニング刺激から 3D 回転変換を学習し、精神物理学的な運動からの構造実験で人間のパフォーマンスと比較するかを示します。
When interacting in a three dimensional world, humans must estimate 3D structure from visual inputs projected down to two dimensional retinal images. It has been shown that humans use the persistence of object shape over motion-induced transformations as a cue to resolve depth ambiguity when solving this underconstrained problem. With the aim of understanding how biological vision systems may internally represent 3D transformations, we propose a computational model, based on a generative manifold model, which can be used to infer 3D structure from the motion of 2D points. Our model can also learn representations of the transformations with minimal supervision, providing a proof of concept for how humans may develop internal representations on a developmental or evolutionary time scale. Focused on rotational motion, we show how our model infers depth from moving 2D projected points, learns 3D rotational transformations from 2D training stimuli, and compares to human performance on psychophysical structure-from-motion experiments.
updated: Fri Mar 31 2023 02:43:01 GMT+0000 (UTC)
published: Fri Mar 31 2023 02:43:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト