arXiv reaDer
Pareto-optimal data compression for binary classification tasks
 非可逆データ圧縮の目標は、データセットXのストレージコストを削減しながら、関心のある何か(Y)について可能な限り多くの情報を保持することです。たとえば、画像Xのどの側面に猫が描かれているかについての情報が最も多く含まれていますか?数学的には、これは相互情報I(Z、Y)を最大化するマッピングX \ toZ≡f(X)を見つけることに対応しますが、エントロピーH(Z)は一定のしきい値を下回っています。保存されたエントロピーとクラス情報の間のトレードオフを反映して、分類タスクのパレートフロンティアをマッピングする方法を提示します。最初に、クラスY∈\ 1、...、n \から描画されたランダム変数X(画像など)を、無損失でベクトルW = f(X)∈R^ n-1に蒸留する方法を示します。 I(W、Y)= I(X、Y);たとえば、猫と犬のバイナリ分類タスクの場合、各画像Xは、猫と犬を区別するのに役立つすべての情報を保持する単一の実数Wにマッピングされます。バイナリ分類のn = 2の場合、Wをm_βビンにビニングすることにより、Wを離散変数Z =g_β(W)∈\ 1、...、m_β\にさらに圧縮する方法を次に示します。パラメーターβを変化させると、完全なパレートフロンティアが一掃され、離散情報ボトルネック(DIB)問題の一般化が解決されます。このフロンティアで最も興味深い点は、固定数のビンm = 2,3 ...に対してI(Z、Y)を最大化する「コーナー」であり、多目的最適化なしで便利に見つけることができると主張します。この方法をCIFAR-10、MNIST、およびFashion-MNISTデータセットに適用し、情報理論的に最適な画像クラスタリングアルゴリズムとして解釈する方法を示します。
The goal of lossy data compression is to reduce the storage cost of a data set X while retaining as much information as possible about something (Y) that you care about. For example, what aspects of an image X contain the most information about whether it depicts a cat? Mathematically, this corresponds to finding a mapping X\to Z≡f(X) that maximizes the mutual information I(Z,Y) while the entropy H(Z) is kept below some fixed threshold. We present a method for mapping out the Pareto frontier for classification tasks, reflecting the tradeoff between retained entropy and class information. We first show how a random variable X (an image, say) drawn from a class Y∈\1,...,n\ can be distilled into a vector W=f(X)∈R^n-1 losslessly, so that I(W,Y)=I(X,Y); for example, for a binary classification task of cats and dogs, each image X is mapped into a single real number W retaining all information that helps distinguish cats from dogs. For the n=2 case of binary classification, we then show how W can be further compressed into a discrete variable Z=g_β(W)∈\1,...,m_β\ by binning W into m_β bins, in such a way that varying the parameter β sweeps out the full Pareto frontier, solving a generalization of the Discrete Information Bottleneck (DIB) problem. We argue that the most interesting points on this frontier are "corners" maximizing I(Z,Y) for a fixed number of bins m=2,3... which can be conveniently be found without multiobjective optimization. We apply this method to the CIFAR-10, MNIST and Fashion-MNIST datasets, illustrating how it can be interpreted as an information-theoretically optimal image clustering algorithm.
updated: Wed Jan 15 2020 18:43:57 GMT+0000 (UTC)
published: Fri Aug 23 2019 18:00:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト