A hierarchical loss and its problems when classifying non-hierarchically
 シープドッグと超高層ビルを区別できないと、シープドッグとプードルを区別できないよりも悪化し、罰せられるべきです。結局のところ、シープドッグとプードルは両方とも犬の品種です。ただし、ニューラルネットワークを介したテキストまたは視覚的な分類/認識で使用される障害の既存のメトリック(いわゆる「損失」または「勝利」)は、スカイスクレイパーよりもプードルに似ているなど、アプリオリの情報をほとんど利用しません。 。特に、牧羊犬とプードルを区別できない場合よりも、牧羊犬と超高層ビルを区別できない場合にペナルティを科すことができる指標を定義します。以前に採用されていた可能性とは異なり、このメトリックは、任意のツリー編成に関連付けられたウルトラメトリックツリーに基づいて、分類器のクラスの意味的に意味のある階層になります。ウルトラメトリックツリーは、すべてのリーフがルートから同じ距離にあるような、いわゆるウルトラメトリック距離メトリックを持つツリーです。残念ながら、広範な数値実験では、ランダムな開始点を使用した確率的勾配降下法によるニューラルネットワークのトレーニングの標準的な実践では、標準のクロスエントロピー損失を最小化する場合と階層損失を直接最小化しようとする場合とで、階層損失がほぼ同じくらいに低下することが多いことが示されています。したがって、この階層的な損失は、単純でランダムに開始される確率的勾配降下を最小化する目的としては信頼できません。階層的損失の主な価値は、単に分類器の成功の有意義なメトリックとしてである場合があります。
Failing to distinguish between a sheepdog and a skyscraper should be worse and penalized more than failing to distinguish between a sheepdog and a poodle; after all, sheepdogs and poodles are both breeds of dogs. However, existing metrics of failure (so-called "loss" or "win") used in textual or visual classification/recognition via neural networks seldom leverage a-priori information, such as a sheepdog being more similar to a poodle than to a skyscraper. We define a metric that, inter alia, can penalize failure to distinguish between a sheepdog and a skyscraper more than failure to distinguish between a sheepdog and a poodle. Unlike previously employed possibilities, this metric is based on an ultrametric tree associated with any given tree organization into a semantically meaningful hierarchy of a classifier's classes. An ultrametric tree is a tree with a so-called ultrametric distance metric such that all leaves are at the same distance from the root. Unfortunately, extensive numerical experiments indicate that the standard practice of training neural networks via stochastic gradient descent with random starting points often drives down the hierarchical loss nearly as much when minimizing the standard cross-entropy loss as when trying to minimize the hierarchical loss directly. Thus, this hierarchical loss is unreliable as an objective for plain, randomly started stochastic gradient descent to minimize; the main value of the hierarchical loss may be merely as a meaningful metric of success of a classifier.
updated: Mon Dec 09 2019 20:38:32 GMT+0000 (UTC)
published: Fri Sep 01 2017 23:46:59 GMT+0000 (UTC)
