arXiv reaDer
一段階の高解像度顕著性検出のためのピラミッドグラフトネットワーク
Pyramid Grafting Network for One-Stage High Resolution Saliency Detection
ディープニューラルネットワークに基づく最近の顕著な物体検出(SOD)手法は、驚くべきパフォーマンスを達成しています。ただし、低解像度入力用に設計された既存のSODモデルのほとんどは、サンプリング深度と受容野サイズの間に矛盾があるため、高解像度画像ではパフォーマンスが低下します。この矛盾を解決することを目的として、トランスフォーマーとCNNバックボーンを使用して、異なる解像度の画像から特徴を個別に抽出し、トランスフォーマーブランチからCNNブランチに特徴を移植する、ピラミッドグラフトネットワーク(PGNet)と呼ばれる新しい1ステージフレームワークを提案します。注意ベースのクロスモデルグラフトモジュール(CMGM)は、CNNブランチが、デコードプロセス中にさまざまなソース機能によって導かれ、壊れた詳細情報をより全体的に組み合わせることができるようにするために提案されています。さらに、アテンションガイドロス(AGL)を設計して、CMGMによって生成されたアテンションマトリックスを明示的に監視し、ネットワークがさまざまなモデルからのアテンションとより適切に相互作用できるようにします。 4K〜8Kの解像度で5,920枚の画像を含む、新しい超高解像度顕著性検出データセットUHRSDを提供します。私たちの知る限り、これは高解像度SODタスクの量と解像度の両方で最大のデータセットであり、将来の研究でのトレーニングとテストに使用できます。 UHRSDと広く使用されているSODデータセットに関する十分な実験により、私たちの方法が最先端の方法と比較して優れたパフォーマンスを達成していることが実証されています。
Recent salient object detection (SOD) methods based on deep neural network have achieved remarkable performance. However, most of existing SOD models designed for low-resolution input perform poorly on high-resolution images due to the contradiction between the sampling depth and the receptive field size. Aiming at resolving this contradiction, we propose a novel one-stage framework called Pyramid Grafting Network (PGNet), using transformer and CNN backbone to extract features from different resolution images independently and then graft the features from transformer branch to CNN branch. An attention-based Cross-Model Grafting Module (CMGM) is proposed to enable CNN branch to combine broken detailed information more holistically, guided by different source feature during decoding process. Moreover, we design an Attention Guided Loss (AGL) to explicitly supervise the attention matrix generated by CMGM to help the network better interact with the attention from different models. We contribute a new Ultra-High-Resolution Saliency Detection dataset UHRSD, containing 5,920 images at 4K-8K resolutions. To our knowledge, it is the largest dataset in both quantity and resolution for high-resolution SOD task, which can be used for training and testing in future research. Sufficient experiments on UHRSD and widely-used SOD datasets demonstrate that our method achieves superior performance compared to the state-of-the-art methods.
updated: Tue Apr 12 2022 08:08:00 GMT+0000 (UTC)
published: Mon Apr 11 2022 12:22:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト