オブジェクト認識タスクの大規模な固定セットで完全に監視された方法でトレーニングされた深い畳み込みネットワークのアクティブ化から抽出された特徴を、新しい汎用タスクに再利用できるかどうかを評価します。一般的なタスクは、最初にトレーニングされたタスクとは大幅に異なる場合があり、新しいタスクにディープアーキテクチャを従来の方法でトレーニングまたは適応するには、ラベル付きまたはラベルなしのデータが不十分な場合があります。シーン認識、ドメイン適応、きめの細かい認識の課題など、さまざまなタスクに関する深い畳み込み機能のセマンティッククラスタリングを調査して視覚化します。さまざまなネットワークレベルに依存して固定機能を定義することの有効性を比較し、いくつかの重要なビジョンの課題で最先端を大幅に上回る新しい結果を報告します。これらの深い畳み込み活性化機能のオープンソース実装であるDeCAFをリリースし、関連するすべてのネットワークパラメーターとともに、視覚研究者がさまざまな視覚概念学習パラダイムにわたって深い表現で実験を行えるようにします。
We evaluate whether features extracted from the activation of a deep convolutional network trained in a fully supervised fashion on a large, fixed set of object recognition tasks can be re-purposed to novel generic tasks. Our generic tasks may differ significantly from the originally trained tasks and there may be insufficient labeled or unlabeled data to conventionally train or adapt a deep architecture to the new tasks. We investigate and visualize the semantic clustering of deep convolutional features with respect to a variety of such tasks, including scene recognition, domain adaptation, and fine-grained recognition challenges. We compare the efficacy of relying on various network levels to define a fixed feature, and report novel results that significantly outperform the state-of-the-art on several important vision challenges. We are releasing DeCAF, an open-source implementation of these deep convolutional activation features, along with all associated network parameters to enable vision researchers to be able to conduct experimentation with deep representations across a range of visual concept learning paradigms.