arXiv reaDer
データ表現のためのバッチ サンプル関係の再考: バッチグラフ トランスフォーマー ベースのアプローチ
Rethinking Batch Sample Relationships for Data Representation: A Batch-Graph Transformer based Approach
各ミニバッチ内のサンプル関係を調べることで、画像表現を学習する大きな可能性が示されました。既存の作品は通常、通常のトランスフォーマーを採用して視覚的なコンテンツの関係をモデル化し、サンプル間のセマンティック/ラベルの相関関係の手がかりを無視します。また、それらは通常、明らかに冗長で、ノイズの多いサンプルにも敏感な「完全な」自己注意メカニズムを採用しています。これらの問題を克服するために、このホワイト ペーパーでは、視覚的および意味論的観点から画像サンプルの関係を深くキャプチャすることにより、ミニバッチ サンプル表現用のシンプルかつ柔軟な Batch-Graph Transformer (BGFormer) を設計します。 BGFormer には 3 つの主要な側面があります。 (1) バッチ グラフと呼ばれる柔軟なグラフ モデルを使用して、各ミニバッチ内のサンプルの視覚的および意味的な関係を共同でエンコードします。 (2) まばらなグラフ表現のアイデアを借りて、サンプルの近傍関係を調査します。これにより、ノイズの多いサンプルに対してロバストに実行されます。 (3) サンプルトークン (ノード) 表現のバッチグラフ情報を慎重に活用するために、グラフ正規化、FFN などと共に、主にデュアル構造制約自己注意 (SSA) を採用する新しい Transformer アーキテクチャを考案します。アプリケーションとして、BGFormer を計量学習タスクに適用します。 4 つの一般的なデータセットに対する広範な実験により、提案されたモデルの有効性が実証されました。
Exploring sample relationships within each mini-batch has shown great potential for learning image representations. Existing works generally adopt the regular Transformer to model the visual content relationships, ignoring the cues of semantic/label correlations between samples. Also, they generally adopt the "full" self-attention mechanism which are obviously redundant and also sensitive to the noisy samples. To overcome these issues, in this paper, we design a simple yet flexible Batch-Graph Transformer (BGFormer) for mini-batch sample representations by deeply capturing the relationships of image samples from both visual and semantic perspectives. BGFormer has three main aspects. (1) It employs a flexible graph model, termed Batch Graph to jointly encode the visual and semantic relationships of samples within each mini-batch. (2) It explores the neighborhood relationships of samples by borrowing the idea of sparse graph representation which thus performs robustly, w.r.t., noisy samples. (3) It devises a novel Transformer architecture that mainly adopts dual structure-constrained self-attention (SSA), together with graph normalization, FFN, etc, to carefully exploit the batch graph information for sample tokens (nodes) representations. As an application, we apply BGFormer to the metric learning tasks. Extensive experiments on four popular datasets demonstrate the effectiveness of the proposed model.
updated: Sat Nov 19 2022 08:46:50 GMT+0000 (UTC)
published: Sat Nov 19 2022 08:46:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト