arXiv reaDer
自己教師付き食品事前トレーニング用の特徴抑制コントラスト
Feature-Suppressed Contrast for Self-Supervised Food Pre-training
食品画像を分析するためのこれまでのアプローチのほとんどは、広範囲に注釈が付けられたデータセットに依存しており、そのような画像の多様性と複雑な性質により、人によるラベル付けに多大な費用がかかりました。ラベルなしデータを活用する際の自己教師あり対照的手法の有効性に着想を得て、weiqing はラベルなしの食品画像でこれらの手法を活用することを検討しています。対照的な自己教師あり手法では、データ拡張によって 2 つのビューが画像からランダムに生成されます。しかし、食べ物の画像に関しては、2 つのビューに同様の有益な内容が含まれる傾向があり、相互情報が大きくなり、対照的な自己教師あり学習の有効性が妨げられます。この問題に対処するために、ビュー間の相互情報を減らす機能抑制コントラスト (FeaSC) を提案します。 2 つのビューの類似した内容は特徴マップ内で顕著であるか、応答性が高いため、提案された FeaSC は応答認識スキームを使用して、教師なしの方法で顕著な特徴を位置特定します。 1 つのビューのいくつかの顕著な特徴を抑制し、別のコントラスト ビューを変更しないことで、2 つのビュー間の相互情報が減少し、それによって自己教師付き食事事前トレーニングにおけるコントラスト学習の有効性が高まります。プラグアンドプレイ モジュールとして、提案された方法は、4 つの公的に利用可能な食品認識データセットで BYOL と SimSiam の分類精度を 1.70% 〜 6.69% 一貫して向上させます。下流のセグメンテーションタスクでも優れた結果が得られ、提案された方法の有効性が実証されました。
Most previous approaches for analyzing food images have relied on extensively annotated datasets, resulting in significant human labeling expenses due to the varied and intricate nature of such images. Inspired by the effectiveness of contrastive self-supervised methods in utilizing unlabelled data, weiqing explore leveraging these techniques on unlabelled food images. In contrastive self-supervised methods, two views are randomly generated from an image by data augmentations. However, regarding food images, the two views tend to contain similar informative contents, causing large mutual information, which impedes the efficacy of contrastive self-supervised learning. To address this problem, we propose Feature Suppressed Contrast (FeaSC) to reduce mutual information between views. As the similar contents of the two views are salient or highly responsive in the feature map, the proposed FeaSC uses a response-aware scheme to localize salient features in an unsupervised manner. By suppressing some salient features in one view while leaving another contrast view unchanged, the mutual information between the two views is reduced, thereby enhancing the effectiveness of contrast learning for self-supervised food pre-training. As a plug-and-play module, the proposed method consistently improves BYOL and SimSiam by 1.70% ∼ 6.69% classification accuracy on four publicly available food recognition datasets. Superior results have also been achieved on downstream segmentation tasks, demonstrating the effectiveness of the proposed method.
updated: Mon Aug 21 2023 07:37:56 GMT+0000 (UTC)
published: Mon Aug 07 2023 03:27:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト