セマンティックアライメントとオブジェクトランドマーク検出のための畳み込みニューラルネットワーク(CNN)ベースのアプローチにより、パフォーマンスが大幅に向上しました。 2つのタスクに対する現在の取り組みは、弱くまたは監督されていない学習フレームワークを通じて、大量のトレーニングデータの不足に対処することに重点を置いています。本稿では、密な対応を取得し、意味的に類似した画像からオブジェクトのランドマークを発見するための共同学習アプローチを提示します。 2つのタスクが相互に監視を相互に提供できるという重要な洞察に基づいて、当社のネットワークは、2つのタスク間に一貫性制約を課す共同損失機能を通じてこれを達成し、それによりパフォーマンスを向上させ、トレーニングデータの不足に対処します原則的な方法。私たちの知る限り、これは共同学習による2つのタスクのトレーニングデータの不足に対処する最初の試みです。フレームワークの堅牢性をさらに向上させるために、信頼性の高いマッチングのみを共同学習プロセスで使用できるようにする確率的学習定式化を導入します。提案された方法を使用すると、既存のデータセットよりも多くの困難な画像ペアを含む新しく導入されたデータセットJLADを含む、セマンティックマッチングとランドマーク検出のいくつかの標準ベンチマークで最先端のパフォーマンスが達成されます。
Convolutional neural networks (CNNs) based approaches for semantic alignment and object landmark detection have improved their performance significantly. Current efforts for the two tasks focus on addressing the lack of massive training data through weakly- or unsupervised learning frameworks. In this paper, we present a joint learning approach for obtaining dense correspondences and discovering object landmarks from semantically similar images. Based on the key insight that the two tasks can mutually provide supervisions to each other, our networks accomplish this through a joint loss function that alternatively imposes a consistency constraint between the two tasks, thereby boosting the performance and addressing the lack of training data in a principled manner. To the best of our knowledge, this is the first attempt to address the lack of training data for the two tasks through the joint learning. To further improve the robustness of our framework, we introduce a probabilistic learning formulation that allows only reliable matches to be used in the joint learning process. With the proposed method, state-of-the-art performance is attained on several standard benchmarks for semantic matching and landmark detection, including a newly introduced dataset, JLAD, which contains larger number of challenging image pairs than existing datasets.