arXiv reaDer
SiaTrans:深度画像分類によるRGB-D顕著なオブジェクト検出のためのシャムトランスフォーマーネットワーク
SiaTrans: Siamese Transformer Network for RGB-D Salient Object Detection with Depth Image Classification
RGB-D SODは、深度情報を使用して、困難なシーンを処理し、高品質の顕著性マップを取得します。既存の最先端のRGB-D顕著性検出方法は、深度情報を直接融合する戦略に圧倒的に依存しています。これらの方法は、さまざまなクロスモダリティ融合戦略を通じて顕著性予測の精度を向上させますが、一部の低品質の深度画像によって提供される誤った情報は、顕著性予測結果に影響を与える可能性があります。この問題に対処するために、この論文では、SODのトレーニングと同時に深度画質分類のトレーニングを可能にする新しいRGB-D顕著なオブジェクト検出モデル(SiaTrans)を提案します。顕著なオブジェクトのRGB画像と深度画像の間の共通情報に照らして、SiaTransは、エンコーダーとして共有重みパラメーターを持つSiameseトランスフォーマーネットワークを使用し、バッチ次元に連結されたRGBと深度の特徴を抽出し、パフォーマンスを損なうことなくスペースリソースを節約します。 SiaTransは、バックボーンネットワーク(T2T-ViT)のClassトークンを使用して、トークンシーケンスが顕著性検出タスクを実行するのを妨げることなく、深度画像の品質を分類します。トランスベースのクロスモダリティ融合モジュール(CMF)は、RGBと深度情報を効果的に融合できます。また、テストプロセスでは、CMFは、深度画像の品質分類信号に応じて、クロスモダリティ情報を融合するか、RGB情報を拡張するかを選択できます。設計されたCMFおよびデコーダーの最大の利点は、RGBおよびRGB-D情報のデコードの一貫性を維持することです。SiaTransは、テスト中に分類信号に従って、同じモデルパラメーターでRGB-DまたはRGB情報をデコードします。 9つのRGB-DSODベンチマークデータセットでの包括的な実験は、SiaTransが最近の最先端の方法と比較して、最高の全体的なパフォーマンスと最小の計算を持っていることを示しています。
RGB-D SOD uses depth information to handle challenging scenes and obtain high-quality saliency maps. Existing state-of-the-art RGB-D saliency detection methods overwhelmingly rely on the strategy of directly fusing depth information. Although these methods improve the accuracy of saliency prediction through various cross-modality fusion strategies, misinformation provided by some poor-quality depth images can affect the saliency prediction result. To address this issue, a novel RGB-D salient object detection model (SiaTrans) is proposed in this paper, which allows training on depth image quality classification at the same time as training on SOD. In light of the common information between RGB and depth images on salient objects, SiaTrans uses a Siamese transformer network with shared weight parameters as the encoder and extracts RGB and depth features concatenated on the batch dimension, saving space resources without compromising performance. SiaTrans uses the Class token in the backbone network (T2T-ViT) to classify the quality of depth images without preventing the token sequence from going on with the saliency detection task. Transformer-based cross-modality fusion module (CMF) can effectively fuse RGB and depth information. And in the testing process, CMF can choose to fuse cross-modality information or enhance RGB information according to the quality classification signal of the depth image. The greatest benefit of our designed CMF and decoder is that they maintain the consistency of RGB and RGB-D information decoding: SiaTrans decodes RGB-D or RGB information under the same model parameters according to the classification signal during testing. Comprehensive experiments on nine RGB-D SOD benchmark datasets show that SiaTrans has the best overall performance and the least computation compared with recent state-of-the-art methods.
updated: Sat Jul 09 2022 08:22:12 GMT+0000 (UTC)
published: Sat Jul 09 2022 08:22:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト