arXiv reaDer
ViT-Lens: オムニモーダル表現に向けて
ViT-Lens: Towards Omni-modal Representations
視覚言語モデルにおける CLIP ベースのトレーニング レシピは成功していますが、より多くのモダリティ (3D、オーディオなど) への拡張性は大規模データに限定されており、高価であるか、まれなモダリティには適用できないことさえあります。この論文では、事前学習された ViT で新しいモダリティを認識し、事前に定義された空間に位置合わせすることで、効率的なオムニモーダル表現学習を促進する ViT-Lens を紹介します。具体的には、モダリティ固有のレンズは、共有埋め込み空間にマルチモーダル信号を投影するように調整され、その後、事前にトレーニングされた画像知識を保持する強力な ViT によって処理されます。エンコードされたマルチモーダル表現は、既製の基礎モデルによって事前定義されたモーダルに依存しない空間と一致するように最適化されます。 ViT バックボーンを備えたよく訓練されたレンズは、これらの基礎モデルの 1 つとして機能し、後続のモダリティの学習を監督する可能性があります。 ViT-Lens は、増加するモダリティの表現学習のための統合ソリューションを提供し、次の 2 つの魅力的な利点を備えています。(i) 効率的なデータ体制により、タスクおよびドメイン全体で事前学習された ViT を効果的に活用します。 (ii) モダリティの調整スペースにより、新しいモダリティの緊急下流機能が実証されます。初期検証として、ViT-Lens を 3D の観点から評価します。ゼロショット 3D 分類では、ViT-Lens は以前の最先端技術に比べて大幅な改善を達成し、Objaverse-LVIS で 52.0%、ModelNet40 で 87.4%、ScanObjectNN で 60.6% の精度を示しました。さらに、トレーニング済み 3D レンズを調整せずに InstructBLIP モデルに統合するだけで、ゼロショット 3D 質問応答が可能になります。近い将来、さらに多くのモダリティに関する ViT-Lens の結果を公開する予定です。
Though the success of CLIP-based training recipes in vision-language models, their scalability to more modalities (e.g., 3D, audio, etc.) is limited to large-scale data, which is expensive or even inapplicable for rare modalities. In this paper, we present ViT-Lens that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning to a pre-defined space. Specifically, the modality-specific lens is tuned to project multimodal signals to the shared embedding space, which are then processed by a strong ViT that carries pre-trained image knowledge. The encoded multimodal representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. A well-trained lens with a ViT backbone has the potential to serve as one of these foundation models, supervising the learning of subsequent modalities. ViT-Lens provides a unified solution for representation learning of increasing modalities with two appealing benefits: (i) Exploiting the pretrained ViT across tasks and domains effectively with efficient data regime; (ii) Emergent downstream capabilities of novel modalities are demonstrated due to the modality alignment space. We evaluate ViT-Lens in the context of 3D as an initial verification. In zero-shot 3D classification, ViT-Lens achieves substantial improvements over previous state-of-the-art, showing 52.0% accuracy on Objaverse-LVIS, 87.4% on ModelNet40, and 60.6% on ScanObjectNN. Furthermore, we enable zero-shot 3D question-answering by simply integrating the trained 3D lens into the InstructBLIP model without any adaptation. We will release the results of ViT-Lens on more modalities in the near future.
updated: Sun Aug 20 2023 07:26:51 GMT+0000 (UTC)
published: Sun Aug 20 2023 07:26:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト