arXiv reaDer
統合的に事前訓練された Transformer Pyramid ネットワーク
Integrally Pre-Trained Transformer Pyramid Networks
この論文では、マスクされた画像モデリング(MIM)に基づく統合的な事前トレーニングフレームワークを提示します。 MIM と下流の認識タスクの間の転送ギャップが最小限になるように、バックボーンとネックを一緒に事前トレーニングすることをお勧めします。私たちは 2 つの技術的貢献を行っています。まず、特徴ピラミッドを事前トレーニング段階に挿入することにより、再構成ネックと認識ネックを統合します。次に、マスク イメージ モデリング (MIM) を、フィーチャ ピラミッドに多段階の監視を提供するマスク フィーチャ モデリング (MFM) で補完します。事前トレーニング済みのトランス ピラミッド ネットワーク (iTPN) と呼ばれる事前トレーニング済みのモデルは、視覚認識の強力な基盤モデルとして機能します。特に、ベース/ラージレベル iTPN は、ImageNet-1K で 86.2%/87.8% のトップ 1 精度を達成し、COCO オブジェクト検出で 53.2%/55.6% のボックス AP を実現し、Mask-RCNN を使用した 1x トレーニング スケジュールで、54.7 UPerHead を使用した ADE20K セマンティック セグメンテーションで %/57.7% mIoU -- これらすべての結果が新しい記録を打ち立てました。私たちの仕事は、コミュニティがアップストリームの事前トレーニングとダウンストリームの微調整タスクの統合に取り組むよう促します。コードと事前トレーニング済みのモデルは、https://github.com/sunsmarterjie/iTPN でリリースされます。
In this paper, we present an integral pre-training framework based on masked image modeling (MIM). We advocate for pre-training the backbone and neck jointly so that the transfer gap between MIM and downstream recognition tasks is minimal. We make two technical contributions. First, we unify the reconstruction and recognition necks by inserting a feature pyramid into the pre-training stage. Second, we complement mask image modeling (MIM) with masked feature modeling (MFM) that offers multi-stage supervision to the feature pyramid. The pre-trained models, termed integrally pre-trained transformer pyramid networks (iTPNs), serve as powerful foundation models for visual recognition. In particular, the base/large-level iTPN achieves an 86.2%/87.8% top-1 accuracy on ImageNet-1K, a 53.2%/55.6% box AP on COCO object detection with 1x training schedule using Mask-RCNN, and a 54.7%/57.7% mIoU on ADE20K semantic segmentation using UPerHead -- all these results set new records. Our work inspires the community to work on unifying upstream pre-training and downstream fine-tuning tasks. Code and the pre-trained models will be released at https://github.com/sunsmarterjie/iTPN.
updated: Wed Nov 23 2022 06:56:12 GMT+0000 (UTC)
published: Wed Nov 23 2022 06:56:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト