arXiv reaDer
オブジェクト表現を学習するための具体化されたビジョン
Embodied vision for learning object representations
最近の時間的に対照的な学習アプローチは、監視なしで不変のオブジェクト表現を学習することに成功しています。これは、オブジェクトの連続するビューを近くの内部表現にマッピングすることによって実現されます。この学習アプローチを人間の物体認識の発達のモデルとして考えるとき、幼児が物体と相互作用している間に通常どのような視覚入力を観察するかを考慮することが重要です。第一に、人間の視覚は高度に中心的であり、高解像度は視野の中央領域でのみ利用可能です。第二に、乳児の被写界深度が限られているため、ぼやけた背景に対してオブジェクトが表示される場合があります。第三に、オブジェクトの操作中、幼児は、腕がかなり短いため、ほとんどの場合、視野の大部分を占める近くのオブジェクトを観察します。ここでは、これらの効果が時間対照学習を通じて学習した視覚表現の品質にどのように影響するかを研究します。この目的のために、視覚的に具現化されたエージェントに、写真のようにリアルに近いフラットのさまざまな場所にあるオブジェクトを「再生」させます。各プレイセッション中に、エージェントは別のオブジェクトを表示するために体を回転させる前に、複数の方向でオブジェクトを表示します。結果として得られる一連のビューは、時間的に制約のある学習アルゴリズムを提供します。私たちの結果は、幼児の統計を模倣した視覚統計が、慣れ親しんだ環境と新しい環境の両方でオブジェクト認識の精度を向上させることを示しています。この効果は、背景で抽出された特徴の減少、画像内の大きな特徴に対するニューラルネットワークのバイアス、および新規と馴染みのある背景領域間のより大きな類似性によって引き起こされると主張します。視覚学習の具体化された性質は、人間の物体知覚の発達を理解するために重要である可能性があると結論付けます。
Recent time-contrastive learning approaches manage to learn invariant object representations without supervision. This is achieved by mapping successive views of an object onto close-by internal representations. When considering this learning approach as a model of the development of human object recognition, it is important to consider what visual input a toddler would typically observe while interacting with objects. First, human vision is highly foveated, with high resolution only available in the central region of the field of view. Second, objects may be seen against a blurry background due to infants' limited depth of field. Third, during object manipulation a toddler mostly observes close objects filling a large part of the field of view due to their rather short arms. Here, we study how these effects impact the quality of visual representations learnt through time-contrastive learning. To this end, we let a visually embodied agent "play" with objects in different locations of a near photo-realistic flat. During each play session the agent views an object in multiple orientations before turning its body to view another object. The resulting sequence of views feeds a time-contrastive learning algorithm. Our results show that visual statistics mimicking those of a toddler improve object recognition accuracy in both familiar and novel environments. We argue that this effect is caused by the reduction of features extracted in the background, a neural network bias for large features in the image and a greater similarity between novel and familiar background regions. We conclude that the embodied nature of visual learning may be crucial for understanding the development of human object perception.
updated: Thu May 12 2022 16:36:27 GMT+0000 (UTC)
published: Thu May 12 2022 16:36:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト