arXiv reaDer
TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network
顕著なオブジェクトの検出は、シーン内の目立つオブジェクトを強調表示できるピクセルレベルの高密度予測タスクです。最近、U-Netフレームワークが広く使用されており、継続的な畳み込みおよびプーリング操作により、相互に補完するマルチレベル機能が生成されます。パフォーマンスに対する高レベルの機能の貢献度が高いことを考慮して、レイヤー間の長距離の依存関係を学習することで機能を強化するトリプレットトランスフォーマー埋め込みモジュールを提案します。マルチレベル機能を強化するために、重みを共有する3つの変圧器エンコーダーを使用するのはこれが初めてです。入力を処理するスケール調整モジュールをさらに設計し、出力を処理する3ストリームデコーダーを考案し、マルチモーダルフュージョンのカラーフィーチャに深度フィーチャをアタッチすることにより、提案されたトリプレットトランス埋め込みネットワーク(TriTransNet)は最新の状態を実現します。 -RGB-D顕著なオブジェクト検出のアートパフォーマンス、およびパフォーマンスを新しいレベルに押し上げます。実験結果は、提案されたモジュールの有効性とTriTransNetの競合を示しています。
Salient object detection is the pixel-level dense prediction task which can highlight the prominent object in the scene. Recently U-Net framework is widely used, and continuous convolution and pooling operations generate multi-level features which are complementary with each other. In view of the more contribution of high-level features for the performance, we propose a triplet transformer embedding module to enhance them by learning long-range dependencies across layers. It is the first to use three transformer encoders with shared weights to enhance multi-level features. By further designing scale adjustment module to process the input, devising three-stream decoder to process the output and attaching depth features to color features for the multi-modal fusion, the proposed triplet transformer embedding network (TriTransNet) achieves the state-of-the-art performance in RGB-D salient object detection, and pushes the performance to a new level. Experimental results demonstrate the effectiveness of the proposed modules and the competition of TriTransNet.
updated: Mon Aug 09 2021 12:42:56 GMT+0000 (UTC)
published: Mon Aug 09 2021 12:42:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト