arXiv reaDer
言語は深さを理解できますか?
Can Language Understand Depth?
画像の分類に加えて、対照的な言語-画像の事前トレーニング(CLIP)は、オブジェクトレベルや3D空間の理解など、幅広い視覚タスクで並外れた成功を収めています。ただし、CLIPから学習したセマンティック知識を、幾何学的情報を使用した深度推定など、定量化されたターゲットのより複雑なタスクに転送することは依然として困難です。この論文では、DepthCLIPという名前のゼロショット単眼深度推定にCLIPを適用することを提案します。入力画像のパッチが特定のセマンティック距離トークンに応答し、粗い推定のために定量化された深度ビンに投影される可能性があることがわかりました。トレーニングなしで、DepthCLIPは既存の教師なし手法を上回り、初期の完全教師ありネットワークにさえアプローチします。私たちの知る限りでは、セマンティック言語の知識から定量化されたダウンストリームタスクへのゼロショット適応を実施し、ゼロショット単眼深度推定を実行するのは私たちが初めてです。私たちの研究が将来の研究に光を当てることを願っています。コードはhttps://github.com/Adonis-galaxy/DepthCLIPで入手できます。
Besides image classification, Contrastive Language-Image Pre-training (CLIP) has accomplished extraordinary success for a wide range of vision tasks, including object-level and 3D space understanding. However, it's still challenging to transfer semantic knowledge learned from CLIP into more intricate tasks of quantified targets, such as depth estimation with geometric information. In this paper, we propose to apply CLIP for zero-shot monocular depth estimation, named DepthCLIP. We found that the patches of the input image could respond to a certain semantic distance token and then be projected to a quantified depth bin for coarse estimation. Without any training, our DepthCLIP surpasses existing unsupervised methods and even approaches the early fully-supervised networks. To our best knowledge, we are the first to conduct zero-shot adaptation from the semantic language knowledge to quantified downstream tasks and perform zero-shot monocular depth estimation. We hope our work could cast a light on future research. The code is available at https://github.com/Adonis-galaxy/DepthCLIP.
updated: Sat Jul 09 2022 08:19:06 GMT+0000 (UTC)
published: Sun Jul 03 2022 16:51:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト