What Makes Training Multi-Modal Classification Networks Hard?
 複数の入力モダリティを持つタスクでのマルチモーダルネットワークとシングルモーダルネットワークのエンドツーエンドのトレーニングを検討してください。マルチモーダルネットワークはより多くの情報を受け取るので、シングルモーダルの対応物と一致またはそれを上回る必要があります。ただし、この実験では、逆の結果が見られます。最高のシングルモーダルネットワークは、常にマルチモーダルネットワークよりも優れています。この観察結果は、モダリティのさまざまな組み合わせや、さまざまなタスクやベンチマークで一貫しています。このホワイトペーパーでは、このパフォーマンス低下の2つの主な原因を特定します。1つ目は、マルチモーダルネットワークが容量の増加によりオーバーフィットする傾向があることです。第二に、異なるモダリティは異なるレートでオーバーフィットし一般化するため、単一の最適化戦略でそれらを共同でトレーニングするのは最適ではありません。これらの2つの問題に対処するために、グラジエントブレンディングと呼ばれる手法を使用します。 Gradient Blendingは、過剰適合を回避するために広く使用されているベースラインよりも優れており、人間の行動認識、自我中心の行動認識、音響イベント検出などのさまざまなタスクで最先端の精度を達成します。
Consider end-to-end training of a multi-modal vs. a single-modal network on a task with multiple input modalities: the multi-modal network receives more information, so it should match or outperform its single-modal counterpart. In our experiments, however, we observe the opposite: the best single-modal network always outperforms the multi-modal network. This observation is consistent across different combinations of modalities and on different tasks and benchmarks. This paper identifies two main causes for this performance drop: first, multi-modal networks are often prone to overfitting due to increased capacity. Second, different modalities overfit and generalize at different rates, so training them jointly with a single optimization strategy is sub-optimal. We address these two problems with a technique we call Gradient Blending, which computes an optimal blend of modalities based on their overfitting behavior. We demonstrate that Gradient Blending outperforms widely-used baselines for avoiding overfitting and achieves state-of-the-art accuracy on various tasks including human action recognition, ego-centric action recognition, and acoustic event detection.
updated: Fri Apr 03 2020 00:36:42 GMT+0000 (UTC)
published: Wed May 29 2019 19:10:06 GMT+0000 (UTC)
