arXiv reaDer
Pixel-in-Pixel Net:野生での効率的な顔のランドマーク検出に向けて
Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the Wild
最近、ヒートマップ回帰モデルは、顔のランドマークを見つける際の優れたパフォーマンスのために人気があります。ただし、これらのモデルには3つの大きな問題がまだ存在します。(1)計算コストが高い。 (2)通常、グローバル形状に対する明示的な制約がありません。 (3)ドメインギャップが一般的に存在します。これらの問題に対処するために、顔のランドマーク検出用のPixel-in-Pixel Net(PIPNet)を提案します。提案されたモデルは、ヒートマップ回帰に基づく新しい検出ヘッドを備えており、低解像度の特徴マップでスコアとオフセットの予測を同時に実行します。そうすることで、繰り返しのアップサンプリングレイヤーが不要になり、モデルの精度を犠牲にすることなく推論時間を大幅に短縮できます。さらに、隣接するランドマークからの予測を融合することによってローカル制約を適用するために、シンプルで効果的な隣接回帰モジュールが提案されています。これにより、新しい検出ヘッドの堅牢性が向上します。 PIPNetのクロスドメイン一般化機能をさらに改善するために、カリキュラムを使用した自己トレーニングを提案します。このトレーニング戦略では、より簡単なタスクから始めて、より正確なラベルを提供するための難易度を徐々に上げることにより、ドメイン全体のラベルなしデータからより信頼性の高い疑似ラベルをマイニングできます。広範な実験により、監視された設定の下で6つの人気のあるベンチマークのうち3つで最先端の結果が得られるPIPNetの優位性が実証されています。 2つのクロスドメインテストセットの結果も、ベースラインと比較して一貫して改善されています。特に、軽量バージョンのPIPNetは、CPUとGPUでそれぞれ35.7FPSと200FPSで動作しますが、最先端の方法との競争力を維持しています。 PIPNetのコードは、https://github.com/jhb86253817/PIPNetで入手できます。
Recently, heatmap regression models have become popular due to their superior performance in locating facial landmarks. However, three major problems still exist among these models: (1) they are computationally expensive; (2) they usually lack explicit constraints on global shapes; (3) domain gaps are commonly present. To address these problems, we propose Pixel-in-Pixel Net (PIPNet) for facial landmark detection. The proposed model is equipped with a novel detection head based on heatmap regression, which conducts score and offset predictions simultaneously on low-resolution feature maps. By doing so, repeated upsampling layers are no longer necessary, enabling the inference time to be largely reduced without sacrificing model accuracy. Besides, a simple but effective neighbor regression module is proposed to enforce local constraints by fusing predictions from neighboring landmarks, which enhances the robustness of the new detection head. To further improve the cross-domain generalization capability of PIPNet, we propose self-training with curriculum. This training strategy is able to mine more reliable pseudo-labels from unlabeled data across domains by starting with an easier task, then gradually increasing the difficulty to provide more precise labels. Extensive experiments demonstrate the superiority of PIPNet, which obtains state-of-the-art results on three out of six popular benchmarks under the supervised setting. The results on two cross-domain test sets are also consistently improved compared to the baselines. Notably, our lightweight version of PIPNet runs at 35.7 FPS and 200 FPS on CPU and GPU, respectively, while still maintaining a competitive accuracy to state-of-the-art methods. The code of PIPNet is available at https://github.com/jhb86253817/PIPNet.
updated: Sat Sep 11 2021 04:52:46 GMT+0000 (UTC)
published: Sun Mar 08 2020 12:23:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト