合成データセットは、ラベル付きの実際のシーン データが大量にないため、エンドツーエンドのオプティカル フロー ネットワークの事前トレーニングによく使用されます。ただし、合成シーンから実際のシーンに移行すると、精度が大幅に低下します。合成から学んだ知識を実際のドメインに移すにはどうすればよいでしょうか?この目的のために、CLIP-FLow を提案します。CLIP-FLow は、事前トレーニングの知識をターゲットの実際のドメインに転送するための半教師あり反復擬似ラベリング フレームワークです。大規模でラベルのない実際のデータを活用して、反復的に更新される疑似グラウンド トゥルース ラベルを監視しながら転移学習を促進し、合成データと実際データの間のドメイン ギャップを埋めます。さらに、正確なマッチングをさらに強化し、モーション、オクルージョン、またはノイズの多い疑似ラベルによるミスマッチを抑えるために、参照フィーチャとワープ フィーチャの対照的なフロー損失を疑似グラウンド トゥルース フローによって提案します。バックボーンとして RAFT を採用し、4.11% の F1-all エラーを取得します。つまり、RAFT から 19% のエラー削減 (5.10%) であり、KITTI 2015 ベンチマークで提出時に 2 位にランクされています。私たちのフレームワークは、CRAFT などの他のモデルにも拡張でき、KITTI 2015 ベンチマークで F1-all エラーを 4.79% から 4.66% に減らします。
Synthetic datasets are often used to pretrain end-to-end optical flow networks, due to the lack of a large amount of labeled, real-scene data. But major drops in accuracy occur when moving from synthetic to real scenes. How do we better transfer the knowledge learned from synthetic to real domains? To this end, we propose CLIP-FLow, a semi-supervised iterative pseudo-labeling framework to transfer the pretraining knowledge to the target real domain. We leverage large-scale, unlabeled real data to facilitate transfer learning with the supervision of iteratively updated pseudo-ground truth labels, bridging the domain gap between the synthetic and the real. In addition, we propose a contrastive flow loss on reference features and the warped features by pseudo ground truth flows, to further boost the accurate matching and dampen the mismatching due to motion, occlusion, or noisy pseudo labels. We adopt RAFT as the backbone and obtain an F1-all error of 4.11%, i.e. a 19% error reduction from RAFT (5.10%) and ranking 2^nd place at submission on the KITTI 2015 benchmark. Our framework can also be extended to other models, e.g. CRAFT, reducing the F1-all error from 4.79% to 4.66% on KITTI 2015 benchmark.