この作業では、ノイズ除去拡散モデルの成功を活用し、マスクと予測スキームであるオートエンコーダで形成された拡散プロセスとして特徴の改良を定式化することに専念しています。最先端の CSLR フレームワークは、空間モジュール、視覚モジュール、シーケンス モジュール、シーケンス学習機能で構成されます。ただし、このフレームワークは、目的関数と小規模な利用可能なベンチマークによって引き起こされるシーケンス モジュールのオーバーフィッティングに直面しており、その結果、モデルのトレーニングが不十分になります。過学習問題を克服するために、一部の CSLR 研究では、シーケンス モジュールがより多くの視覚的な時間情報を学習するか、より有益な監視によって誘導されてその表現を改良するように強制されています。この研究では、エンドツーエンドの方法でエンコードとデコードの最適化プロセスを学習することにより、シーケンス表現を改良して必要な特性を装備する、新しいオートエンコーダーで形成された条件付き拡散特徴改良 (ACDR) を提案します。具体的には、ACDR の場合、意味論的な条件を備えたノイズをシーケンス表現に徐々に追加するノイズ エンコーダーが提案されています。また、ノイズ除去デコーダは、意味論的条件を使用してノイズの多いシーケンス表現を段階的にノイズ除去するために提案されています。したがって、シーケンス表現には、提供された意味論的条件の意味論を組み込むことができます。さらに、ノイズ除去されたシーケンス表現の意味的破損を防ぐために、意味的制約が使用されます。 ACDR の有効性を検証するために広範な実験が実施され、最先端の手法が活用され、3 つのベンチマークで顕著な向上が達成されています。
In this work, we are dedicated to leveraging the denoising diffusion models' success and formulating feature refinement as the autoencoder-formed diffusion process, which is a mask-and-predict scheme. The state-of-the-art CSLR framework consists of a spatial module, a visual module, a sequence module, and a sequence learning function. However, this framework has faced sequence module overfitting caused by the objective function and small-scale available benchmarks, resulting in insufficient model training. To overcome the overfitting problem, some CSLR studies enforce the sequence module to learn more visual temporal information or be guided by more informative supervision to refine its representations. In this work, we propose a novel autoencoder-formed conditional diffusion feature refinement~(ACDR) to refine the sequence representations to equip desired properties by learning the encoding-decoding optimization process in an end-to-end way. Specifically, for the ACDR, a noising Encoder is proposed to progressively add noise equipped with semantic conditions to the sequence representations. And a denoising Decoder is proposed to progressively denoise the noisy sequence representations with semantic conditions. Therefore, the sequence representations can be imbued with the semantics of provided semantic conditions. Further, a semantic constraint is employed to prevent the denoised sequence representations from semantic corruption. Extensive experiments are conducted to validate the effectiveness of our ACDR, benefiting state-of-the-art methods and achieving a notable gain on three benchmarks.