arXiv reaDer
DPT:視覚認識のための変形可能なパッチベースのトランスフォーマー
DPT: Deformable Patch-based Transformer for Visual Recognition
Transformerはコンピュータービジョンで大きな成功を収めましたが、画像内のパッチをどのように分割するかは依然として問題です。既存のメソッドは通常、オブジェクトのセマンティクスを破壊する可能性のある固定サイズのパッチ埋め込みを使用します。この問題に対処するために、事前定義された固定パッチを使用するのではなく、データ駆動型の方法で画像を異なる位置とスケールのパッチに適応的に分割することを学習する新しい変形可能パッチ(DePatch)モジュールを提案します。このようにして、私たちのメソッドはパッチのセマンティクスを適切に保持できます。 DePatchモジュールは、プラグアンドプレイモジュールとして機能し、さまざまなトランスフォーマーに簡単に組み込んで、エンドツーエンドのトレーニングを実現できます。このDePatch埋め込みトランスを変形可能パッチベースのトランス(DPT)と呼び、画像分類とオブジェクト検出に関するDPTの広範な評価を実施します。結果は、DPTがImageNet分類で81.9%のトップ1精度、RetinaNetで43.7%のボックスmAP、MSCOCOオブジェクト検出でマスクR-CNNで44.3%を達成できることを示しています。コードはhttps://github.com/CASIA-IVA-Lab/DPTで入手できます。
Transformer has achieved great success in computer vision, while how to split patches in an image remains a problem. Existing methods usually use a fixed-size patch embedding which might destroy the semantics of objects. To address this problem, we propose a new Deformable Patch (DePatch) module which learns to adaptively split the images into patches with different positions and scales in a data-driven way rather than using predefined fixed patches. In this way, our method can well preserve the semantics in patches. The DePatch module can work as a plug-and-play module, which can easily be incorporated into different transformers to achieve an end-to-end training. We term this DePatch-embedded transformer as Deformable Patch-based Transformer (DPT) and conduct extensive evaluations of DPT on image classification and object detection. Results show DPT can achieve 81.9% top-1 accuracy on ImageNet classification, and 43.7% box mAP with RetinaNet, 44.3% with Mask R-CNN on MSCOCO object detection. Code has been made available at: https://github.com/CASIA-IVA-Lab/DPT .
updated: Fri Jul 30 2021 07:33:17 GMT+0000 (UTC)
published: Fri Jul 30 2021 07:33:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト