この作業では、ノイズ除去拡散モデルの成功を活用し、オートエンコーダー形成の拡散プロセスとして機能の改良を定式化することに専念しています。最先端の CSLR フレームワークは、空間モジュール、ビジュアル モジュール、シーケンス モジュール、およびシーケンス学習機能で構成されます。ただし、このフレームワークは、目的関数と小規模な利用可能なベンチマークによって引き起こされるシーケンス モジュールのオーバーフィッティングに直面しており、モデルのトレーニングが不十分でした。オーバーフィッティングの問題を克服するために、一部の CSLR 研究では、シーケンス モジュールを強制して、より視覚的な時間情報を学習させるか、より有益な監督によって導かれてその表現を改良します。この作業では、エンドツーエンドの方法でエンコード/デコード最適化プロセスを学習することにより、シーケンス表現を調整して目的のプロパティを装備する、新しいオートエンコーダー形式の条件付き拡散機能の調整~(ACDR)を提案します。具体的には、ACDR の場合、セマンティック条件を備えたノイズをシーケンス表現に徐々に追加するために、ノイシング エンコーダーが提案されています。そして、ノイズの多いシーケンス表現をセマンティック条件で段階的にノイズ除去するために、ノイズ除去デコーダが提案されています。したがって、シーケンス表現には、提供されたセマンティック条件のセマンティクスを吹き込むことができます。さらに、ノイズ除去されたシーケンス表現が意味的に破損するのを防ぐために、意味上の制約が採用される。 ACDR の有効性を検証するために広範な実験が行われ、最先端の方法に利益をもたらし、3 つのベンチマークで顕著な利益を達成しています。
In this work, we are dedicated to leveraging the denoising diffusion models' success and formulating feature refinement as the autoencoder-formed diffusion process. The state-of-the-art CSLR framework consists of a spatial module, a visual module, a sequence module, and a sequence learning function. However, this framework has faced sequence module overfitting caused by the objective function and small-scale available benchmarks, resulting in insufficient model training. To overcome the overfitting problem, some CSLR studies enforce the sequence module to learn more visual temporal information or be guided by more informative supervision to refine its representations. In this work, we propose a novel autoencoder-formed conditional diffusion feature refinement~(ACDR) to refine the sequence representations to equip desired properties by learning the encoding-decoding optimization process in an end-to-end way. Specifically, for the ACDR, a noising Encoder is proposed to progressively add noise equipped with semantic conditions to the sequence representations. And a denoising Decoder is proposed to progressively denoise the noisy sequence representations with semantic conditions. Therefore, the sequence representations can be imbued with the semantics of provided semantic conditions. Further, a semantic constraint is employed to prevent the denoised sequence representations from semantic corruption. Extensive experiments are conducted to validate the effectiveness of our ACDR, benefiting state-of-the-art methods and achieving a notable gain on three benchmarks.