arXiv reaDer
あなたの「ラブラドール」は私の「犬」です:きめ細かいかどうか
Your "Labrador" is My "Dog": Fine-Grained, or Not
図1に表示されているのが「ラブラドール」なのか「犬」なのかは、このホワイトペーパーで尋ねる質問です。きめ細かい視覚的分類(FGVC)は前者に到達しようと努めていますが、私たちの大多数にとって、専門家ではない人はおそらく「犬」で十分でしょう。したがって、本当の問題は、さまざまなレベルの専門知識の下で、さまざまなきめ細かい定義に合わせてどのように調整できるかということです。そのために、単一ラベル分類から、事前定義された粗いラベルから細かいラベル階層へのトップダウントラバーサルの設定まで、FGVCの従来の設定を再検討します。これにより、答えは「犬」になります。 >「ガンドッグ」->「レトリーバー」->「ラブラドール」。この新しい問題に取り組むために、私たちは最初に包括的な人間調査を実施し、ほとんどの参加者が自分自身を専門家と見なすかどうかに関係なく、マルチグラニュラリティラベルを好むことを確認します。次に、次のような重要な直感を発見します。粗いレベルのラベル予測は、きめ細かい特徴学習を悪化させますが、細かいレベルの特徴は、粗いレベルの分類器の学習を改善します。この発見により、新しい問題に対して驚くほど効果的な解決策を設計することができます。ここでは、(i)レベル固有の分類ヘッドを活用して、粗いレベルの特徴をきめの細かい特徴と解きほぐし、(ii)きめの細かい特徴を可能にします。より粗いラベル予測に参加することで、より良い解きほぐしに役立ちます。実験は、私たちの方法が新しいFGVC設定で優れたパフォーマンスを達成し、従来の単一ラベルFGVC問題でも最先端よりも優れたパフォーマンスを発揮することを示しています。そのシンプルさのおかげで、私たちのメソッドは既存のFGVCフレームワークの上に簡単に実装でき、パラメーターは不要です。
Whether what you see in Figure 1 is a "labrador" or a "dog", is the question we ask in this paper. While fine-grained visual classification (FGVC) strives to arrive at the former, for the majority of us non-experts just "dog" would probably suffice. The real question is therefore -- how can we tailor for different fine-grained definitions under divergent levels of expertise. For that, we re-envisage the traditional setting of FGVC, from single-label classification, to that of top-down traversal of a pre-defined coarse-to-fine label hierarchy -- so that our answer becomes "dog"-->"gun dog"-->"retriever"-->"labrador". To approach this new problem, we first conduct a comprehensive human study where we confirm that most participants prefer multi-granularity labels, regardless whether they consider themselves experts. We then discover the key intuition that: coarse-level label prediction exacerbates fine-grained feature learning, yet fine-level feature betters the learning of coarse-level classifier. This discovery enables us to design a very simple albeit surprisingly effective solution to our new problem, where we (i) leverage level-specific classification heads to disentangle coarse-level features with fine-grained ones, and (ii) allow finer-grained features to participate in coarser-grained label predictions, which in turn helps with better disentanglement. Experiments show that our method achieves superior performance in the new FGVC setting, and performs better than state-of-the-art on traditional single-label FGVC problem as well. Thanks to its simplicity, our method can be easily implemented on top of any existing FGVC frameworks and is parameter-free.
updated: Wed Nov 18 2020 02:24:54 GMT+0000 (UTC)
published: Wed Nov 18 2020 02:24:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト