この論文では、密な視覚表現を学習するために、DenseDINO と呼ばれる自己教師あり学習のためのシンプルかつ効果的な変換フレームワークを提案します。高密度予測タスクに必要だが、既存の自己教師あり変換器では無視されている空間情報を活用するために、新しいトークンベースの方法でビュー全体にポイントレベルの教師を導入します。具体的には、DenseDINO は、ポイントレベルの特徴を以前の位置と照合するために、参照トークンと呼ばれるいくつかの追加の入力トークンを導入します。参照トークンを使用すると、モデルは空間の一貫性を維持し、複数のオブジェクトの複雑なシーンの画像を処理できるため、高密度の予測タスクをより適切に一般化できます。バニラ DINO と比較して、私たちのアプローチは ImageNet での分類で評価した場合に競争力のあるパフォーマンスを獲得し、セグメンテーション用の線形プローブ プロトコルの下で PascalVOC のセマンティック セグメンテーションで大幅なマージン (+7.2% mIoU) の改善を達成しました。
In this paper, we propose a simple yet effective transformer framework for self-supervised learning called DenseDINO to learn dense visual representations. To exploit the spatial information that the dense prediction tasks require but neglected by the existing self-supervised transformers, we introduce point-level supervision across views in a novel token-based way. Specifically, DenseDINO introduces some extra input tokens called reference tokens to match the point-level features with the position prior. With the reference token, the model could maintain spatial consistency and deal with multi-object complex scene images, thus generalizing better on dense prediction tasks. Compared with the vanilla DINO, our approach obtains competitive performance when evaluated on classification in ImageNet and achieves a large margin (+7.2% mIoU) improvement in semantic segmentation on PascalVOC under the linear probing protocol for segmentation.