このペーパーでは、ラベルのないマルチビュー画像を使用して高密度キーポイント検出器を学習するための新しいエンドツーエンドの半教師ありフレームワークを紹介します。キーポイントマッピングの逆は分析的に導き出すことも区別することもできないため、重要な課題は、複数のビューで密なキーポイント間の正確な対応を見つけることにあります。これは、正確な対応に依存するスパースキーポイント検出に既存のマルチビュー監視アプローチを適用することを制限します。この課題に対処するために、2つの望ましいプロパティをエンコードする新しい確率的エピポーラ制約を導き出します。 (1)ソフト対応:他の画像の対応するポイントとポイントが一致する可能性を測定する一致可能性を定義し、正確な対応の要件を緩和します。 (2)幾何学的一貫性:連続対応フィールドのすべてのポイントは、集合的にマルチビュー一貫性を満たさなければなりません。整合性によるエピポーラ誤差の加重平均を使用して確率的エピポーラ制約を定式化し、それによってポイントツーポイントの幾何学的誤差をフィールド間の幾何学的誤差に一般化します。この一般化により、多数のラベルなしマルチビュー画像を利用することにより、幾何学的にコヒーレントな高密度キーポイント検出モデルの学習が容易になります。さらに、変性のケースを防ぐために、事前にトレーニングされたモデルを使用して、蒸留ベースの正則化を採用しています。最後に、アフィニティマトリックスを構築することにより、2つのビュー画像間のすべての可能な対応の確率的エピポーラエラーを効果的に最小化する、ツインネットワークで作成された新しいニューラルネットワークアーキテクチャを設計します。私たちの方法は、キーポイントの精度、マルチビューの一貫性、3D再構成の精度の点で、微分不可能なブートストラップなど、既存の方法と比較して優れたパフォーマンスを示します。
This paper presents a new end-to-end semi-supervised framework to learn a dense keypoint detector using unlabeled multiview images. A key challenge lies in finding the exact correspondences between the dense keypoints in multiple views since the inverse of keypoint mapping can be neither analytically derived nor differentiated. This limits applying existing multiview supervision approaches on sparse keypoint detection that rely on the exact correspondences. To address this challenge, we derive a new probabilistic epipolar constraint that encodes the two desired properties. (1) Soft correspondence: we define a matchability, which measures a likelihood of a point matching to the other image's corresponding point, thus relaxing the exact correspondences' requirement. (2) Geometric consistency: every point in the continuous correspondence fields must satisfy the multiview consistency collectively. We formulate a probabilistic epipolar constraint using a weighted average of epipolar errors through the matchability thereby generalizing the point-to-point geometric error to the field-to-field geometric error. This generalization facilitates learning a geometrically coherent dense keypoint detection model by utilizing a large number of unlabeled multiview images. Additionally, to prevent degenerative cases, we employ a distillation-based regularization by using a pretrained model. Finally, we design a new neural network architecture, made of twin networks, that effectively minimizes the probabilistic epipolar errors of all possible correspondences between two view images by building affinity matrices. Our method shows superior performance compared to existing methods, including non-differentiable bootstrapping in terms of keypoint accuracy, multiview consistency, and 3D reconstruction accuracy.