Discrete Infomax Codes for Supervised Representation Learning
 データのコンパクトな離散表現を学習することは、単独で、またはデータの後続処理を促進するための重要なタスクです。このペーパーでは、Discrete InfoMax Codes(DIMCO)を生成するモデルを示します。入力データに関連付けられたk-way d次元コードを生成する確率的エンコーダーを学習します。私たちのモデルの学習目標は、コードワードのエントリが可能な限り独立するように強制する正則化により、コードとラベル間の相互情報を最大化することです。 infomax原理は、特別なケースとして以前の損失関数(クロスエントロピーなど)も正当化することを示します。また、分析では、DIMCOのように短いコードを使用すると、少数ショット分類のコンテキストでの過剰適合が減少することが示されています。さまざまなドメインでの実験を通じて、DIMCOのこの暗黙的なメタ正則化効果を観察します。さらに、DIMCOによって学習されたコードは、以前の方法と比較して、メモリと検索時間の両方の点で効率的であることを示します。
Learning compact discrete representations of data is a key task on its own or for facilitating subsequent processing of data. In this paper we present a model that produces Discrete InfoMax Codes (DIMCO); we learn a probabilistic encoder that yields k-way d-dimensional codes associated with input data. Our model's learning objective is to maximize the mutual information between codes and labels with a regularization, which enforces entries of a codeword to be as independent as possible. We show that the infomax principle also justifies previous loss functions (e.g., cross-entropy) as its special cases. Our analysis also shows that using shorter codes, as DIMCO does, reduces overfitting in the context of few-shot classification. Through experiments in various domains, we observe this implicit meta-regularization effect of DIMCO. Furthermore, we show that the codes learned by DIMCO are efficient in terms of both memory and retrieval time compared to previous methods.
updated: Mon Feb 24 2020 04:21:53 GMT+0000 (UTC)
published: Tue May 28 2019 07:38:35 GMT+0000 (UTC)
