arXiv reaDer
COTR:画像間で照合するための通信トランスフォーマー
COTR: Correspondence Transformer for Matching Across Images
ディープニューラルネットワークに基づいて画像内の対応を見つけるための新しいフレームワークを提案します。このフレームワークは、2つの画像と、一方にクエリポイントが与えられると、もう一方に対応を見つけます。そうすることで、関心のあるポイントのみをクエリして疎な対応を取得するか、画像内のすべてのポイントをクエリして密なマッピングを取得するかを選択できます。重要なのは、ローカルとグローバルの両方の事前確率をキャプチャし、モデルが前述の事前確率の中で最も関連性の高いものを使用して画像領域間で関連付けられるようにするために、トランスフォーマーを使用してネットワークを実現することです。推論時に、推定値を再帰的に拡大することで通信ネットワークを適用し、高精度の通信を提供できるマルチスケールパイプラインを生成します。私たちの方法は、特定のデータセットを再トレーニングすることなく、ワイドベースラインステレオからオプティカルフローに至るまで、複数のデータセットとタスクのスパースおよびデンス対応問題の両方で最先端技術を大幅に上回っています。データ、コード、およびゼロからトレーニングして再現性を確保するために必要なすべてのツールをリリースすることをお約束します。
We propose a novel framework for finding correspondences in images based on a deep neural network that, given two images and a query point in one of them, finds its correspondence in the other. By doing so, one has the option to query only the points of interest and retrieve sparse correspondences, or to query all points in an image and obtain dense mappings. Importantly, in order to capture both local and global priors, and to let our model relate between image regions using the most relevant among said priors, we realize our network using a transformer. At inference time, we apply our correspondence network by recursively zooming in around the estimates, yielding a multiscale pipeline able to provide highly-accurate correspondences. Our method significantly outperforms the state of the art on both sparse and dense correspondence problems on multiple datasets and tasks, ranging from wide-baseline stereo to optical flow, without any retraining for a specific dataset. We commit to releasing data, code, and all the tools necessary to train from scratch and ensure reproducibility.
updated: Thu Mar 25 2021 22:47:02 GMT+0000 (UTC)
published: Thu Mar 25 2021 22:47:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト