arXiv reaDer
DejaVu: 高密度予測を強化するための条件付き再生学習
DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction
DejaVu は、セグメンテーション、深度推定、表面法線予測などの高密度予測タスクのディープ ネットワークを改善するために、トレーニング中の追加の監視として条件付き画像再生を活用する新しいフレームワークです。まず、入力画像にリダクションを適用します。これにより、スパース サンプリングまたは選択的な周波数除去によって特定の構造情報が削除されます。次に、編集された画像と密な予測を入力として受け取り、欠落している構造情報を埋めることによって元の画像を再構成する条件付き再生器を使用します。編集された画像では、境界などの構造的属性が壊れていますが、セマンティック コンテキストはほとんど保持されています。再生を実行可能にするために、条件付きジェネレーターは、他の入力ソースからの構造情報、つまり密な予測を必要とします。そのため、トレーニング中にこの条件付き再生目標を含めることにより、DejaVu は、ベース ネットワークが正確なシーン構造を高密度予測に埋め込むことを学習するように促します。これにより、境界が明確になり、空間的な一貫性が向上し、より正確な予測が可能になります。追加の計算を活用できる場合は、DejaVu を拡張して、アテンション ベースの再生成モジュールを高密度予測ネットワーク内に組み込むことができます。これにより、精度がさらに向上します。 Cityscapes、COCO、ADE20K、NYUD-v2、KITTI などの複数の高密度予測ベンチマークでの広範な実験を通じて、追加の計算コストなしで SOTA メソッドよりも優れているため、トレーニング中に DejaVu を採用することの有効性を実証しました。
We present DejaVu, a novel framework which leverages conditional image regeneration as additional supervision during training to improve deep networks for dense prediction tasks such as segmentation, depth estimation, and surface normal prediction. First, we apply redaction to the input image, which removes certain structural information by sparse sampling or selective frequency removal. Next, we use a conditional regenerator, which takes the redacted image and the dense predictions as inputs, and reconstructs the original image by filling in the missing structural information. In the redacted image, structural attributes like boundaries are broken while semantic context is largely preserved. In order to make the regeneration feasible, the conditional generator will then require the structure information from the other input source, i.e., the dense predictions. As such, by including this conditional regeneration objective during training, DejaVu encourages the base network to learn to embed accurate scene structure in its dense prediction. This leads to more accurate predictions with clearer boundaries and better spatial consistency. When it is feasible to leverage additional computation, DejaVu can be extended to incorporate an attention-based regeneration module within the dense prediction network, which further improves accuracy. Through extensive experiments on multiple dense prediction benchmarks such as Cityscapes, COCO, ADE20K, NYUD-v2, and KITTI, we demonstrate the efficacy of employing DejaVu during training, as it outperforms SOTA methods at no added computation cost.
updated: Thu Mar 02 2023 20:56:36 GMT+0000 (UTC)
published: Thu Mar 02 2023 20:56:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト