arXiv reaDer
再発しない再発: 深い平衡モデルによる安定したビデオ ランドマーク検出
Recurrence without Recurrence: Stable Video Landmark Detection with Deep Equilibrium Models
予測が複数の段階で繰り返し洗練されるカスケード計算は、ランドマーク検出モデルの開発を通じて永続的なテーマでした。この作業では、最近提案された深層均衡モデル (DEQ) がこの形式の計算に自然に適応できることを示します。当社の Landmark DEQ (LDEQ) は、挑戦的な WFLW 顔ランドマーク データセットで最先端のパフォーマンスを達成し、より少ないパラメーターで 3.92 NME に達し、反復モジュールの数で O(1) のトレーニング メモリ コストを達成します。さらに、DEQ がビデオのランドマーク検出に特に適していることを示します。この設定では、ラベル付きのビデオがないため、静止画像でトレーニングするのが一般的です。これにより、ビデオの推論時に「ちらつき」効果が発生する可能性があり、それによってモデルは、連続するフレーム間で異なる妥当なソリューション間で急速に振動する可能性があります。 DEQ を制約付き最適化と言い換えることで、トレーニング時に一時データにアクセスできないにもかかわらず、推論時に再帰をエミュレートします。この Recurrence without Recurrence (RwR) パラダイムは、ランドマークのちらつきを減らすのに役立ちます。これは、新しい指標である正規化平均フリッカー (NMF) を導入し、ランドマークの不確実性を対象とする新しい顔のランドマーク ビデオ データセット (WFLW-V) を提供することで実証します。 500 本のビデオで構成される WFLW-V ハード サブセットでは、RwR を使用した LDEQ は、手動で調整された従来のフィルターを使用して以前に公開された最も強力なモデルと比較して、NME と NMF をそれぞれ 10% と 13% 改善します。
Cascaded computation, whereby predictions are recurrently refined over several stages, has been a persistent theme throughout the development of landmark detection models. In this work, we show that the recently proposed Deep Equilibrium Model (DEQ) can be naturally adapted to this form of computation. Our Landmark DEQ (LDEQ) achieves state-of-the-art performance on the challenging WFLW facial landmark dataset, reaching 3.92 NME with fewer parameters and a training memory cost of O(1) in the number of recurrent modules. Furthermore, we show that DEQs are particularly suited for landmark detection in videos. In this setting, it is typical to train on still images due to the lack of labelled videos. This can lead to a ``flickering'' effect at inference time on video, whereby a model can rapidly oscillate between different plausible solutions across consecutive frames. By rephrasing DEQs as a constrained optimization, we emulate recurrence at inference time, despite not having access to temporal data at training time. This Recurrence without Recurrence (RwR) paradigm helps in reducing landmark flicker, which we demonstrate by introducing a new metric, normalized mean flicker (NMF), and contributing a new facial landmark video dataset (WFLW-V) targeting landmark uncertainty. On the WFLW-V hard subset made up of 500 videos, our LDEQ with RwR improves the NME and NMF by 10 and 13% respectively, compared to the strongest previously published model using a hand-tuned conventional filter.
updated: Sun Apr 02 2023 19:08:02 GMT+0000 (UTC)
published: Sun Apr 02 2023 19:08:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト