arXiv reaDer
初期または後期の融合の問題: 3D オブジェクト認識のためのビジョン トランスフォーマーにおける効率的な RGB-D 融合
Early or Late Fusion Matters: Efficient RGB-D Fusion in Vision Transformers for 3D Object Recognition
ビジョン トランスフォーマー (ViT) アーキテクチャは、コンピューター ビジョンの文献でその地位を確立していますが、RGB-D オブジェクト認識のための ViT のトレーニングは、最近の文献では、複数のビジョン モダリティでのマルチタスクの事前トレーニングのレンズを通してのみ見られる、十分に研究されていないトピックのままです。このようなアプローチは、RGB を 3D 情報と整列させるために複数の事前トレーニング データセットの規模に依存するため、多くの場合計算集約的です。この作業では、ViT によって共同でエンコードされた RGB と深度表現の融合に焦点を当て、3D オブジェクト認識のために RGB-D ドメインで事前トレーニング済みの ViT を転送するためのシンプルでありながら強力なレシピを提案します。マルチモーダル Transformers の以前の作業と比較すると、ここでの重要な課題は、ViT の証明された柔軟性を使用して、事前トレーニング段階ではなく、ダウンストリームでクロスモーダル インタラクションをキャプチャすることです。結果の精度の点でどちらの深度表現が優れているかを調べ、ViT アーキテクチャ内で RGB と深度モダリティを調整するための初期と後期の融合手法を比較します。ワシントン RGB-D オブジェクト データセット (ROD) での実験結果は、このような RGB -> RGB-D シナリオでは、最も一般的に採用されている初期融合よりも後期融合手法の方がうまく機能することを示しています。当社の転送ベースラインでは、融合 ViT は ROD で最大 95.4% のトップ 1 精度を獲得し、このベンチマークで新しい最先端の結果を達成しています。さらに、合成から現実への視覚的適応と、ROD ベンチマークのオープンエンドの生涯学習シナリオで、ユニモーダル特徴抽出器よりもマルチモーダル フュージョン ベースラインを使用する利点を示します。 >8%。最後に、この方法をロボット フレームワークと統合し、シミュレーションと実際のロボットの両方で、インタラクティブなロボット学習シナリオで知覚ユーティリティとして機能する方法を示します。
The Vision Transformer (ViT) architecture has established its place in computer vision literature, however, training ViTs for RGB-D object recognition remains an understudied topic, viewed in recent literature only through the lens of multi-task pretraining in multiple vision modalities. Such approaches are often computationally intensive, relying on the scale of multiple pretraining datasets to align RGB with 3D information. In this work, we propose a simple yet strong recipe for transferring pretrained ViTs in RGB-D domains for 3D object recognition, focusing on fusing RGB and depth representations encoded jointly by the ViT. Compared to previous works in multimodal Transformers, the key challenge here is to use the attested flexibility of ViTs to capture cross-modal interactions at the downstream and not the pretraining stage. We explore which depth representation is better in terms of resulting accuracy and compare early and late fusion techniques for aligning the RGB and depth modalities within the ViT architecture. Experimental results in the Washington RGB-D Objects dataset (ROD) demonstrate that in such RGB -> RGB-D scenarios, late fusion techniques work better than most popularly employed early fusion. With our transfer baseline, fusion ViTs score up to 95.4% top-1 accuracy in ROD, achieving new state-of-the-art results in this benchmark. We further show the benefits of using our multimodal fusion baseline over unimodal feature extractors in a synthetic-to-real visual adaptation as well as in an open-ended lifelong learning scenario in the ROD benchmark, where our model outperforms previous works by a margin of >8%. Finally, we integrate our method with a robot framework and demonstrate how it can serve as a perception utility in an interactive robot learning scenario, both in simulation and with a real robot.
updated: Tue Mar 07 2023 14:28:56 GMT+0000 (UTC)
published: Mon Oct 03 2022 12:08:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト