arXiv reaDer
変圧器と自己監視による深度と自我運動の予測
Forecasting of depth and ego-motion with transformers and self-supervision
この論文は、深さと自我の動きのエンドツーエンドの自己監視予測の問題に取り組んでいます。一連の生の画像が与えられた場合、その目的は、自己監視された測光損失を使用して、ジオメトリとエゴモーションの両方を予測することです。このアーキテクチャは、畳み込みモジュールとトランスモジュールの両方を使用して設計されています。これは、両方のモジュールの利点を活用します。CNNの誘導バイアス、および変圧器のマルチヘッドアテンションにより、正確な深度予測を可能にする豊富な時空間表現が可能になります。以前の研究では、監視されたグラウンドトゥルースデータを使用したマルチモーダル入力/出力を使用してこの問題を解決しようとしていますが、大きな注釈付きデータセットが必要なため、実用的ではありません。以前の方法の代わりに、この論文は、入力として自己監視された生の画像のみを使用して、深さと自我の動きを予測します。このアプローチは、KITTIデータセットのベンチマークで非常にうまく機能し、いくつかのパフォーマンス基準は、以前の非予測の自己監視単眼深度推論方法にさえ匹敵します。
This paper addresses the problem of end-to-end self-supervised forecasting of depth and ego motion. Given a sequence of raw images, the aim is to forecast both the geometry and ego-motion using a self supervised photometric loss. The architecture is designed using both convolution and transformer modules. This leverages the benefits of both modules: Inductive bias of CNN, and the multi-head attention of transformers, thus enabling a rich spatio-temporal representation that enables accurate depth forecasting. Prior work attempts to solve this problem using multi-modal input/output with supervised ground-truth data which is not practical since a large annotated dataset is required. Alternatively to prior methods, this paper forecasts depth and ego motion using only self-supervised raw images as input. The approach performs significantly well on the KITTI dataset benchmark with several performance criteria being even comparable to prior non-forecasting self-supervised monocular depth inference methods.
updated: Wed Jun 15 2022 10:14:11 GMT+0000 (UTC)
published: Wed Jun 15 2022 10:14:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト