入力フレームに現実的な気晴らしを導入することにより、オプティカルフロー推定モデルをトレーニングするための新しいデータ拡張アプローチ DistractFlow を提案します。混合比に基づいて、ペアのフレームの 1 つを類似のドメインを表すディストラクタ イメージと組み合わせます。これにより、自然のオブジェクトやシーンと一致する視覚的な摂動を誘発できます。このようなペアを気を散らされたペアと呼びます。低レベルの側面と変更のみに焦点を当てた従来の拡張スキームと比較して、意味的に意味のあるディストラクタを使用すると、モデルは関連するバリエーションを学習し、困難な逸脱に対するロバスト性を達成できるようになるというのが私たちの直感です。より具体的には、元のペアの推定フローとそのグラウンド トゥルース フローとの間で計算された教師付き損失に加えて、注意散漫なペアのフローと元のペアのグラウンド トゥルース フローとの間で定義された 2 番目の教師付き損失を含めます。混合比。さらに、ラベル付けされていないデータが利用可能な場合、疑似ラベル付けと相互一貫性の正則化を通じて、拡張アプローチを自己監視設定に拡張します。元のペアとその気を散らされたバージョンが与えられた場合、気を散らされたペアに推定フローを適用して、元のペアのフローと一致させます。私たちのアプローチにより、追加の注釈を必要とせずに、利用可能なトレーニング ペアの数を大幅に増やすことができます。モデル アーキテクチャに依存せず、任意のオプティカル フロー推定モデルのトレーニングに適用できます。 Sintel、KITTI、SlowFlow などの複数のベンチマークに関する当社の広範な評価は、DistractFlow が既存のモデルを一貫して改善し、最新の最先端技術よりも優れていることを示しています。
We propose a novel data augmentation approach, DistractFlow, for training optical flow estimation models by introducing realistic distractions to the input frames. Based on a mixing ratio, we combine one of the frames in the pair with a distractor image depicting a similar domain, which allows for inducing visual perturbations congruent with natural objects and scenes. We refer to such pairs as distracted pairs. Our intuition is that using semantically meaningful distractors enables the model to learn related variations and attain robustness against challenging deviations, compared to conventional augmentation schemes focusing only on low-level aspects and modifications. More specifically, in addition to the supervised loss computed between the estimated flow for the original pair and its ground-truth flow, we include a second supervised loss defined between the distracted pair's flow and the original pair's ground-truth flow, weighted with the same mixing ratio. Furthermore, when unlabeled data is available, we extend our augmentation approach to self-supervised settings through pseudo-labeling and cross-consistency regularization. Given an original pair and its distracted version, we enforce the estimated flow on the distracted pair to agree with the flow of the original pair. Our approach allows increasing the number of available training pairs significantly without requiring additional annotations. It is agnostic to the model architecture and can be applied to training any optical flow estimation models. Our extensive evaluations on multiple benchmarks, including Sintel, KITTI, and SlowFlow, show that DistractFlow improves existing models consistently, outperforming the latest state of the art.