arXiv reaDer
トランスフォーマーを使用したシーケンス間の観点からのステレオ深度推定の再検討
Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers
ステレオ深度推定は、深度を推測するために、左右の画像のエピポーラ線上のピクセル間の最適な対応マッチングに依存しています。この作業では、シーケンス間の対応の観点から問題を再検討し、コストボリュームの構築を位置情報と注意を使用した高密度ピクセルマッチングに置き換えます。 STereo TRansformer(STTR)と呼ばれるこのアプローチには、いくつかの利点があります。1)固定された視差範囲の制限を緩和し、2)遮蔽された領域を識別して信頼度を推定し、3)マッチングプロセス中に一意性の制約を課します。合成データセットと実世界のデータセットの両方で有望な結果を報告し、微調整しなくても、STTRがさまざまなドメインにわたって一般化することを示します。
Stereo depth estimation relies on optimal correspondence matching between pixels on epipolar lines in the left and right images to infer depth. In this work, we revisit the problem from a sequence-to-sequence correspondence perspective to replace cost volume construction with dense pixel matching using position information and attention. This approach, named STereo TRansformer (STTR), has several advantages: It 1) relaxes the limitation of a fixed disparity range, 2) identifies occluded regions and provides confidence estimates, and 3) imposes uniqueness constraints during the matching process. We report promising results on both synthetic and real-world datasets and demonstrate that STTR generalizes across different domains, even without fine-tuning.
updated: Wed Aug 25 2021 18:35:45 GMT+0000 (UTC)
published: Thu Nov 05 2020 15:35:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト