arXiv reaDer
VisualConceptsのトークン化
Visual Concepts Tokenization
具体的なピクセルから視覚的概念を抽象化する人間のような知覚能力を獲得することは、解きほぐされた表現学習やシーン分解などの機械学習研究分野において常に基本的かつ重要な目標でした。この目標に向けて、VCTと呼ばれる、監視されていないトランスフォーマーベースのVisual Conceptsトークン化フレームワークを提案し、画像を一連の解きほぐされたビジュアルコンセプトトークンに認識します。各コンセプトトークンは、1つのタイプの独立したビジュアルコンセプトに応答します。特に、これらのコンセプトトークンを取得するために、クロスアテンションを使用して、コンセプトトークン間の自己注意なしに、画像トークンからレイヤーごとに視覚情報を抽出し、コンセプトトークン間での情報漏えいを防ぎます。さらに、さまざまな概念トークンが独立した視覚的概念を表すことを容易にするために、概念のもつれを解く損失を提案します。相互注意と解きほぐしの喪失は、それぞれ概念トークンの誘導と相互排除の役割を果たします。いくつかの人気のあるデータセットでの広範な実験により、解きほぐされた表現学習とシーン分解のタスクに対するVCTの有効性が検証されます。 VCTは、最先端の結果を大幅に達成します。
Obtaining the human-like perception ability of abstracting visual concepts from concrete pixels has always been a fundamental and important target in machine learning research fields such as disentangled representation learning and scene decomposition. Towards this goal, we propose an unsupervised transformer-based Visual Concepts Tokenization framework, dubbed VCT, to perceive an image into a set of disentangled visual concept tokens, with each concept token responding to one type of independent visual concept. Particularly, to obtain these concept tokens, we only use cross-attention to extract visual information from the image tokens layer by layer without self-attention between concept tokens, preventing information leakage across concept tokens. We further propose a Concept Disentangling Loss to facilitate that different concept tokens represent independent visual concepts. The cross-attention and disentangling loss play the role of induction and mutual exclusion for the concept tokens, respectively. Extensive experiments on several popular datasets verify the effectiveness of VCT on the tasks of disentangled representation learning and scene decomposition. VCT achieves the state of the art results by a large margin.
updated: Thu Oct 13 2022 06:42:35 GMT+0000 (UTC)
published: Fri May 20 2022 11:25:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト