arXiv reaDer
MELTR: ビデオ ファンデーション モデルの微調整を学習するための Meta Loss Transformer
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models
基盤モデルは、ドメイン全体で優れたパフォーマンスと一般化機能を示しています。基礎モデルに関するほとんどの研究は主に事前トレーニング段階に焦点を当てているため、微調整には単一のタスク固有の損失を最小限に抑えるための単純な戦略が採用されています。ただし、このような微調整方法は、ターゲット タスクにとって潜在的に有益な他の損失を十分に活用しません。したがって、補助学習を介してターゲットタスクの学習を支援するために、さまざまな損失関数を自動的かつ非線形に組み合わせるプラグインモジュールである MEta Loss TRansformer (MELTR) を提案します。補助学習をバイレベル最適化問題として定式化し、近似暗黙的微分 (AID) に基づく効率的な最適化アルゴリズムを提示します。評価のために、フレームワークをさまざまなビデオ基盤モデル (UniVL、Violet、およびオールインワン) に適用し、4 つのダウンストリーム タスクすべて (テキストからビデオへの取得、ビデオによる質問への回答、ビデオのキャプション、およびマルチモーダル感情分析。私たちの定性分析は、MELTR が個々の損失関数を適切に「変換」し、それらを効果的な統合損失に「溶かす」ことを示しています。コードは https://github.com/mlvlab/MELTR で入手できます。
Foundation models have shown outstanding performance and generalization capabilities across domains. Since most studies on foundation models mainly focus on the pretraining phase, a naive strategy to minimize a single task-specific loss is adopted for fine-tuning. However, such fine-tuning methods do not fully leverage other losses that are potentially beneficial for the target task. Therefore, we propose MEta Loss TRansformer (MELTR), a plug-in module that automatically and non-linearly combines various loss functions to aid learning the target task via auxiliary learning. We formulate the auxiliary learning as a bi-level optimization problem and present an efficient optimization algorithm based on Approximate Implicit Differentiation (AID). For evaluation, we apply our framework to various video foundation models (UniVL, Violet and All-in-one), and show significant performance gain on all four downstream tasks: text-to-video retrieval, video question answering, video captioning, and multi-modal sentiment analysis. Our qualitative analyses demonstrate that MELTR adequately `transforms' individual loss functions and `melts' them into an effective unified loss. Code is available at https://github.com/mlvlab/MELTR.
updated: Thu Mar 23 2023 03:06:44 GMT+0000 (UTC)
published: Thu Mar 23 2023 03:06:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト