arXiv reaDer
セマンティックセグメンテーションのための分解された行と列のクエリによるデュアルフラット化トランスフォーマー
Dual-Flattening Transformers through Decomposed Row and Column Queries for Semantic Segmentation
セマンティックセグメンテーションなどの高密度予測タスクでは、長距離依存性のある高解像度の機能を取得することが重要です。サイズh×w(hw≪HW)の低解像度の特徴マップからサイズH×Wの高解像度出力を生成するために、ナイーブな高密度変圧器はO(hwHW)の手に負えない複雑さを招き、高解像度でのアプリケーションを制限します密な予測。単純な高密度トランスよりも数桁小さいO(hw(H + W))に複雑さを軽減することにより、高解像度出力を可能にするデュアルフラットトランス(DFlatFormer)を提案します。分解されたクエリは、別々のトランスフォーマーを介して行と列の注意を扱いやすく取得するために提示され、それらの出力が組み合わされて、高解像度で高密度の特徴マップを形成します。この目的のために、エンコーダーから供給される入力シーケンスは、行と列の構造をそれぞれ保持することにより、分解されたクエリに合わせて行方向と列方向にフラット化されます。行と列のトランスフォーマーも相互に作用して、行と列の間の空間的な交差点で相互の注意を引き付けます。また、モデルの複雑さをさらに軽減するために、効率的なグループ化とプーリングを通じて注意を払うことを提案します。 ADE20KおよびCityscapesデータセットに関する広範な実験は、より高いmIoUを備えた提案されたデュアルフラット化トランスアーキテクチャの優位性を示しています。
It is critical to obtain high resolution features with long range dependency for dense prediction tasks such as semantic segmentation. To generate high-resolution output of size H×W from a low-resolution feature map of size h×w (hw≪HW), a naive dense transformer incurs an intractable complexity of O(hwHW), limiting its application on high-resolution dense prediction. We propose a Dual-Flattening Transformer (DFlatFormer) to enable high-resolution output by reducing complexity to O(hw(H+W)) that is multiple orders of magnitude smaller than the naive dense transformer. Decomposed queries are presented to retrieve row and column attentions tractably through separate transformers, and their outputs are combined to form a dense feature map at high resolution. To this end, the input sequence fed from an encoder is row-wise and column-wise flattened to align with decomposed queries by preserving their row and column structures, respectively. Row and column transformers also interact with each other to capture their mutual attentions with the spatial crossings between rows and columns. We also propose to perform attentions through efficient grouping and pooling to further reduce the model complexity. Extensive experiments on ADE20K and Cityscapes datasets demonstrate the superiority of the proposed dual-flattening transformer architecture with higher mIoUs.
updated: Sat Jan 22 2022 22:38:15 GMT+0000 (UTC)
published: Sat Jan 22 2022 22:38:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト