arXiv reaDer
顕著な物体検出のための受容野の拡大とブースティング
Receptive Field Broadening and Boosting for Salient Object Detection
顕著なオブジェクトの検出には、画像内の視覚的に重要なオブジェクトを見つけるための包括的でスケーラブルな受容野が必要です。最近、ビジュアルトランスフォーマーとマルチブランチモジュールの出現により、ニューラルネットワークがさまざまなスケールでオブジェクトを認識する能力が大幅に向上しました。ただし、従来のバックボーンと比較すると、変圧器の計算プロセスには時間がかかります。さらに、マルチブランチモジュールの異なるブランチは、各トレーニング反復で同じエラーバックプロパゲーションを引き起こす可能性があります。これは、識別機能の抽出に役立ちません。これらの問題を解決するために、トランスフォーマーとCNNに基づくバイラテラルネットワークを提案し、ローカルの詳細とグローバルなセマンティック情報を同時に効率的に拡張します。さらに、マルチヘッドブースティング(MHB)戦略は、さまざまなネットワークブランチの特異性を強化するために提案されています。異なる予測ヘッドの誤差を計算することにより、各ブランチは、他のブランチが誤って予測するピクセルに個別により多くの注意を払うことができます。さらに、マルチパス並列トレーニングとは異なり、MHBは、ブースティング方法で勾配バックプロパゲーションのために毎回ランダムに1つのブランチを選択します。さらに、それぞれの特性に応じて2種類の特徴を融合するために、注意特徴融合モジュール(AF)が提案されています。 5つのベンチマークデータセットでの包括的な実験は、提案された方法が最先端の方法と比較して大幅なパフォーマンスの向上を達成できることを示しています。
Salient object detection requires a comprehensive and scalable receptive field to locate the visually significant objects in the image. Recently, the emergence of visual transformers and multi-branch modules has significantly enhanced the ability of neural networks to perceive objects at different scales. However, compared to the traditional backbone, the calculation process of transformers is time-consuming. Moreover, different branches of the multi-branch modules could cause the same error back propagation in each training iteration, which is not conducive to extracting discriminative features. To solve these problems, we propose a bilateral network based on transformer and CNN to efficiently broaden local details and global semantic information simultaneously. Besides, a Multi-Head Boosting (MHB) strategy is proposed to enhance the specificity of different network branches. By calculating the errors of different prediction heads, each branch can separately pay more attention to the pixels that other branches predict incorrectly. Moreover, Unlike multi-path parallel training, MHB randomly selects one branch each time for gradient back propagation in a boosting way. Additionally, an Attention Feature Fusion Module (AF) is proposed to fuse two types of features according to respective characteristics. Comprehensive experiments on five benchmark datasets demonstrate that the proposed method can achieve a significant performance improvement compared with the state-of-the-art methods.
updated: Fri Oct 15 2021 05:10:33 GMT+0000 (UTC)
published: Fri Oct 15 2021 05:10:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト