ビジョン言語 (VL) モデルの出力とタスクの目標の間に不整合があると、その展開が妨げられます。この問題は、トレーニング データとテスト データの間に分布の変化がある場合に悪化する可能性があります。この問題に対処するために、一般的な完全テスト時適応 (TTA) メソッドは、エントロピー最小化を通じて自らをブートストラップします。ただし、予測のエントロピーを最小限に抑えると、モデルがそれ自体の不正確な出力分布に過学習します。この研究では、このような過剰適合を回避し、モデルをタスクの目標に合わせるために、フィードバックを伴う TTA を提案します。具体的には、CLIP を報酬モデルとして採用し、画像分類、画像テキスト検索、画像キャプションなどのさまざまなタスクのテスト時間中に VL モデルにフィードバックを提供します。単一のテスト サンプルが与えられた場合、このモデルは強化学習を通じて CLIP 報酬を最大化することを目的としています。サンプリングされた候補者の平均CLIPスコアをベースラインとした報酬設計を採用しています。この設計はシンプルであり、さまざまなタスク固有のサンプリング戦略と組み合わせると驚くほど効果的です。システム全体は柔軟性があり、報酬モデルを複数の CLIP モデルで拡張できます。さらに、運動量バッファを使用して、複数のテスト サンプルから学習した知識を記憶し、活用することができます。広範な実験により、私たちの方法が TTA 後にさまざまな VL モデルを大幅に改善することが実証されました。
Misalignment between the outputs of a vision-language (VL) model and task goal hinders its deployment. This issue can worsen when there are distribution shifts between the training and test data. To address this problem, prevailing fully test-time adaptation~(TTA) methods bootstrap themselves through entropy minimization. However, minimizing the entropy of the predictions makes the model overfit to incorrect output distributions of itself. In this work, we propose TTA with feedback to avoid such overfitting and align the model with task goals. Specifically, we adopt CLIP as reward model to provide feedback for VL models during test time in various tasks, including image classification, image-text retrieval, and image captioning. Given a single test sample, the model aims to maximize CLIP reward through reinforcement learning. We adopt a reward design with the average CLIP score of sampled candidates as the baseline. This design is simple and surprisingly effective when combined with various task-specific sampling strategies. The entire system is flexible, allowing the reward model to be extended with multiple CLIP models. Plus, a momentum buffer can be used to memorize and leverage the learned knowledge from multiple test samples. Extensive experiments demonstrate that our method significantly improves different VL models after TTA.