自己教師あり表現学習は、データの一部を差し控え、残りの部分からそれを予測するようにネットワークにタスクを課すというパラダイムに従います。この目的に向けて、マスキングは、画像の空間、音声の時間、言語の構文など、連続した次元に沿ってコンテンツを差し控える汎用的で強力なツールとして登場しました。このホワイト ペーパーでは、一般的なデータ拡張のための直交チャネル次元について説明します。各チャネルのデータは、ランダムにサンプリングされた量子化ビン内でランダムにサンプリングされた量子化値を使用して、不均一量子化器によって量子化されます。別の観点から見ると、量子化は各ビン内の情報を削除しますが、ビン全体で情報を保持するため、チャネル単位のマスキングに似ています。ランダム化された量子化を、自己教師あり対照モデルの順次増強と組み合わせて適用します。この一般的なアプローチは、視覚タスクのモダリティ固有の増強と同等の結果を達成し、3D 点群とオーディオで最先端の結果を達成します。また、この方法が、さまざまなデータ モダリティで構成される包括的な DABS ベンチマークで、ディープ ニューラル ネットワークの中間埋め込みを拡張するために適用できることを示します。コードは http://www.github.com/microsoft/random_quantize で入手できます。
Self-supervised representation learning follows a paradigm of withholding some part of the data and tasking the network to predict it from the remaining part. Towards this end, masking has emerged as a generic and powerful tool where content is withheld along the sequential dimension, e.g., spatial in images, temporal in audio, and syntactic in language. In this paper, we explore the orthogonal channel dimension for generic data augmentation. The data for each channel is quantized through a non-uniform quantizer, with the quantized value sampled randomly within randomly sampled quantization bins. From another perspective, quantization is analogous to channel-wise masking, as it removes the information within each bin, but preserves the information across bins. We apply the randomized quantization in conjunction with sequential augmentations on self-supervised contrastive models. This generic approach achieves results on par with modality-specific augmentation on vision tasks, and state-of-the-art results on 3D point clouds as well as on audio. We also demonstrate this method to be applicable for augmenting intermediate embeddings in a deep neural network on the comprehensive DABS benchmark which is comprised of various data modalities. Code is availabel at http://www.github.com/microsoft/random_quantize.