arXiv reaDer
より多くを学ぶことは良いことではないかもしれません:視覚と言語のタスクにおける知識の伝達可能性
Learning More May Not Be Better: Knowledge Transferability in Vision and Language Tasks
視覚と言語のモデルをトレーニングするには、常により多くのデータが必要ですか?マルチモーダルタスクにおける知識の伝達可能性を研究します。機械学習の現在の傾向は、さまざまなタスクからの複数のデータセットを結合することで、全体的なパフォーマンスが向上すると想定することです。ただし、共通の目標を共有している場合でも、すべての知識が適切に伝達されたり、関連するタスクにプラスの影響を与えたりするわけではないことを示しています。 4 つのグループに分類された 12 の視覚と言語の課題について、何百ものクロス実験に基づいて徹底的な分析を行います。同じグループ内のタスクはお互いに改善する傾向がありますが、結果は、常にそうであるとは限らないことを示しています。データセットのサイズやトレーニング前の段階などの他の要因も、知識がどれだけうまく伝達されるかに大きな影響を与えます。
Is more data always better to train vision-and-language models? We study knowledge transferability in multi-modal tasks. The current tendency in machine learning is to assume that by joining multiple datasets from different tasks their overall performance will improve. However, we show that not all the knowledge transfers well or has a positive impact on related tasks, even when they share a common goal. We conduct an exhaustive analysis based on hundreds of cross-experiments on 12 vision-and-language tasks categorized in 4 groups. Whereas tasks in the same group are prone to improve each other, results show that this is not always the case. Other factors such as dataset size or pre-training stage have also a great impact on how well the knowledge is transferred.
updated: Tue Aug 23 2022 06:39:18 GMT+0000 (UTC)
published: Tue Aug 23 2022 06:39:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト