arXiv reaDer
自己監視機能の強化: 教師あり学習への内部口実タスクの適用
Self-supervised Feature Enhancement: Applying Internal Pretext Task to Supervised Learning
従来の自己教師あり学習では、CNN が外部の口実タスク (つまり、画像またはビデオベースのタスク) を使用して、高レベルの意味論的視覚的表現をエンコードする必要があります。この論文では、CNN 内の特徴変換も、内部口実タスクと呼ばれる自己監視タスクを構築するための監視信号とみなすことができることを示します。そして、そのようなタスクは、教師あり学習の強化に適用できます。具体的には、最初にさまざまなチャネルを破棄して内部機能マップを変換し、次に破棄されたチャネルを識別するための追加の内部口実タスクを定義します。 CNN は、自己監視ラベルと元のラベルの組み合わせによって生成されるジョイント ラベルを予測するようにトレーニングされています。そうすることで、より豊富な機能情報をマイニングすることを期待して分類しながら、どのチャネルが欠落しているかを CNN に知らせます。大規模な実験により、私たちのアプローチがさまざまなモデルとデータセットで効果的であることが示されています。そして、無視できる計算オーバーヘッドしか発生しないことは注目に値します。さらに、私たちのアプローチは、より良い結果を得るために他の方法と互換性を持つこともできます。
Traditional self-supervised learning requires CNNs using external pretext tasks (i.e., image- or video-based tasks) to encode high-level semantic visual representations. In this paper, we show that feature transformations within CNNs can also be regarded as supervisory signals to construct the self-supervised task, called internal pretext task. And such a task can be applied for the enhancement of supervised learning. Specifically, we first transform the internal feature maps by discarding different channels, and then define an additional internal pretext task to identify the discarded channels. CNNs are trained to predict the joint labels generated by the combination of self-supervised labels and original labels. By doing so, we let CNNs know which channels are missing while classifying in the hope to mine richer feature information. Extensive experiments show that our approach is effective on various models and datasets. And it's worth noting that we only incur negligible computational overhead. Furthermore, our approach can also be compatible with other methods to get better results.
updated: Wed Jun 09 2021 08:59:35 GMT+0000 (UTC)
published: Wed Jun 09 2021 08:59:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト