本論文では、トレーニングデータの中で近傍リレーショナルエンコーディング(NRE)を利用することにより、新しい自己教師付き表現学習を提案します。従来の教師なし学習方法は、主に潜在空間からデータを再構築できるように、視覚データの原始特性を理解するためのディープネットワークのトレーニングにのみ焦点を当てていました。彼らはしばしば、サンプル間の関係を無視しました。これは、自己監視の重要な指標として役立ちます。前の研究とは異なり、NREはデータ多様体上の局所的な近傍構造を維持することを目指しています。したがって、外れ値の影響を受けにくくなります。 NREコンポーネントをエンコーダー/デコーダー構造と統合して、ローカルの近隣情報を考慮したサンプルの表現を学習します。このような差別的で教師なしの表現学習スキームは、激しい注釈要件からの独立性により、さまざまなコンピュータービジョンタスクに適応できます。学習した潜在表現に基づいて、分類、検出、セグメンテーションなど、さまざまなタスクに対して提案手法を評価します。さらに、提案された方法の自動エンコード機能を、敵対的な攻撃例やビデオ異常検出に対する防御などのアプリケーションに採用します。結果は、私たちの方法のパフォーマンスが、特定のアプリケーションごとに最先端のものに比べて優れているか、少なくとも同等であることを確認しますが、一般的で自己管理型のアプローチです。
In this paper, we propose a novel self-supervised representation learning by taking advantage of a neighborhood-relational encoding (NRE) among the training data. Conventional unsupervised learning methods only focused on training deep networks to understand the primitive characteristics of the visual data, mainly to be able to reconstruct the data from a latent space. They often neglected the relation among the samples, which can serve as an important metric for self-supervision. Different from the previous work, NRE aims at preserving the local neighborhood structure on the data manifold. Therefore, it is less sensitive to outliers. We integrate our NRE component with an encoder-decoder structure for learning to represent samples considering their local neighborhood information. Such discriminative and unsupervised representation learning scheme is adaptable to different computer vision tasks due to its independence from intense annotation requirements. We evaluate our proposed method for different tasks, including classification, detection, and segmentation based on the learned latent representations. In addition, we adopt the auto-encoding capability of our proposed method for applications like defense against adversarial example attacks and video anomaly detection. Results confirm the performance of our method is better or at least comparable with the state-of-the-art for each specific application, but with a generic and self-supervised approach.