転送可能性メトリックは、関心が高まっている成熟分野であり、すべてを微調整することなく、特定のターゲットデータセットに転送するのに最適なソースモデルを選択するためのヒューリスティックを提供することを目的としています。ただし、既存の作業は、論文間で異なるカスタムの実験設定に依存しているため、どの転送可能性メトリックが最適に機能するかについて一貫性のない結論につながります。この論文では、715kの実験装置のバリエーションの広い範囲を体系的に構築することにより、大規模な研究を実施します。実験のセットアップにわずかな変化があったとしても、転送可能性メトリックが他のメトリックよりも優れているという結論が異なることを発見しました。次に、多くの実験を集約してより良い評価を提案し、より安定した結論に到達できるようにします。その結果、セマンティックセグメンテーションシナリオで転送する適切なソースデータセットを選択する際のLogME、画像分類シナリオで適切なソースアーキテクチャを選択する際のNLEEP、および特定のソースモデルから最もメリットのあるターゲットタスクを決定する際のGBCの優位性を明らかにします。 。ただし、すべてのシナリオで最適に機能する単一の転送可能性メトリックはありません。
Transferability metrics is a maturing field with increasing interest, which aims at providing heuristics for selecting the most suitable source models to transfer to a given target dataset, without fine-tuning them all. However, existing works rely on custom experimental setups which differ across papers, leading to inconsistent conclusions about which transferability metrics work best. In this paper we conduct a large-scale study by systematically constructing a broad range of 715k experimental setup variations. We discover that even small variations to an experimental setup lead to different conclusions about the superiority of a transferability metric over another. Then we propose better evaluations by aggregating across many experiments, enabling to reach more stable conclusions. As a result, we reveal the superiority of LogME at selecting good source datasets to transfer from in a semantic segmentation scenario, NLEEP at selecting good source architectures in an image classification scenario, and GBC at determining which target task benefits most from a given source model. Yet, no single transferability metric works best in all scenarios.