arXiv reaDer
コンテキスト マルチモーダル学習のための条件付きバッチ正規化の落とし穴
Pitfalls of Conditional Batch Normalization for Contextual Multi-Modal Learning
人間は、感覚器官を通じて複数のモダリティから学習する技術を完成させました。単一のモダリティでの印象的な予測性能にもかかわらず、ニューラル ネットワークは、複数のモダリティに関して人間レベルの精度に到達することはできません。これは、それぞれのモダリティの構造が異なるため、特に困難な作業です。条件付きバッチ正規化 (CBN) は、深層学習タスクを支援するコンテキスト機能を学習するために提案された一般的な方法です。この手法では、補助データを使用して、畳み込みニューラル ネットワークのアフィン変換を学習することにより、表現力を向上させます。 CBNレイヤーを使用することでパフォーマンスが向上したにもかかわらず、CBNを介して補助データを導入することで学習した視覚的特徴が低下することが明らかになりました。さまざまなデータセットに対する CBN ネットワークの脆弱性を評価するための包括的な実験を行い、視覚的特徴のみから学習することが一般化に優れていることが多いことを示唆しています。鳥の分類のための自然画像と癌の種類の分類のための組織画像で CBN モデルを評価します。 CBN ネットワークは、鳥類分類データセットではほとんど視覚的特徴を学習せず、組織学データセットでは部分的な視覚的特徴を学習することがわかります。私たちの広範な実験により、CBN が補助データとラベルの間のショートカット学習を促進する可能性があることが明らかになりました。
Humans have perfected the art of learning from multiple modalities through sensory organs. Despite their impressive predictive performance on a single modality, neural networks cannot reach human level accuracy with respect to multiple modalities. This is a particularly challenging task due to variations in the structure of respective modalities. Conditional Batch Normalization (CBN) is a popular method that was proposed to learn contextual features to aid deep learning tasks. This technique uses auxiliary data to improve representational power by learning affine transformations for convolutional neural networks. Despite the boost in performance observed by using CBN layers, our work reveals that the visual features learned by introducing auxiliary data via CBN deteriorates. We perform comprehensive experiments to evaluate the brittleness of CBN networks to various datasets, suggesting that learning from visual features alone could often be superior for generalization. We evaluate CBN models on natural images for bird classification and histology images for cancer type classification. We observe that the CBN network learns close to no visual features on the bird classification dataset and partial visual features on the histology dataset. Our extensive experiments reveal that CBN may encourage shortcut learning between the auxiliary data and labels.
updated: Mon Nov 28 2022 05:15:16 GMT+0000 (UTC)
published: Mon Nov 28 2022 05:15:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト