arXiv reaDer
RCDPT: Radar-Camera fusion Dense Prediction Transformer
RCDPT: Radar-Camera fusion Dense Prediction Transformer
最近、トランスフォーマー ネットワークは、自然言語処理において従来のディープ ニューラル ネットワークよりも優れており、畳み込みバックボーンと比較して、多くのコンピューター ビジョン タスクで大きな可能性を示しています。元のトランスフォーマーでは、読み取りトークンは、他のトークンから情報を集約するための指定されたベクトルとして使用されます。ただし、ビジョン トランスフォーマーで読み出しトークンを使用する場合のパフォーマンスは限られています。したがって、カメラ表現をレーダー表現で再構築することにより、レーダーデータを高密度予測変換ネットワークに統合するための新しい融合戦略を提案します。読み取りトークンを使用する代わりに、レーダー表現は追加の深度情報を単眼深度推定モデルに提供し、パフォーマンスを向上させます。さらに、追加のモダリティを高密度の予測変換ネットワークに統合するために一般的に使用されるさまざまな融合アプローチを調査します。実験は、カメラ画像、LIDAR、レーダー データを含む nuScenes データセットで実施されます。結果は、提案された方法が、一般的に使用される融合戦略よりも優れたパフォーマンスをもたらし、カメラ画像とレーダーを融合する既存の畳み込み深度推定モデルよりも優れていることを示しています。
Recently, transformer networks have outperformed traditional deep neural networks in natural language processing and show a large potential in many computer vision tasks compared to convolutional backbones. In the original transformer, readout tokens are used as designated vectors for aggregating information from other tokens. However, the performance of using readout tokens in a vision transformer is limited. Therefore, we propose a novel fusion strategy to integrate radar data into a dense prediction transformer network by reassembling camera representations with radar representations. Instead of using readout tokens, radar representations contribute additional depth information to a monocular depth estimation model and improve performance. We further investigate different fusion approaches that are commonly used for integrating additional modality in a dense prediction transformer network. The experiments are conducted on the nuScenes dataset, which includes camera images, lidar, and radar data. The results show that our proposed method yields better performance than the commonly used fusion strategies and outperforms existing convolutional depth estimation models that fuse camera images and radar.
updated: Thu Mar 02 2023 15:00:46 GMT+0000 (UTC)
published: Fri Nov 04 2022 13:16:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト