PICASO: Permutation-Invariant Cascaded Attentional Set Operator
セット入力ディープネットワークは、最近、コンピュータービジョンと機械学習に大きな関心を集めています。これは、メタ学習、クラスタリング、異常検出など、設定された入力で定義される重要なタスクの数が増加していることが一因です。これらのネットワークは、任意の数の入力サンプルを取得し、入力セットの順列に対して不変の出力を生成する必要があります。この緊急のニーズに対処するために、最近いくつかのアルゴリズムが開発されました。私たちの論文は、合成データセットと実世界のデータセットの両方を使用してこれらのアルゴリズムを分析し、画像の変換や視点の変更などの一般的なデータの変化を処理するのに効果的ではないことを示しています。この制限に対処するために、順列不変のカスケード注意セット演算子(PICASO)を提案します。 PICASOの要点は、動的テンプレートを備えたマルチヘッドアテンションブロックのカスケードです。提案されたオペレーターは、さまざまな機械学習タスクに対応するように適合および拡張できるスタンドアロンモジュールです。 PICASOの有用性を、(i)クラスタリング、(ii)新しい視点での画像分類、(iii)画像異常検出、(iv)状態予測の4つの異なるシナリオで示します。 PICASOは、新しい視点でSmallNORB画像分類の精度を約10%ポイント向上させます。 CelebAデータセットでのセット異常検出の場合、モデルはROCおよびPR曲線データセットの下の領域をそれぞれ約22%および10%改善します。 CLEVRデータセットの状態予測では、APが約40%向上します。
Set-input deep networks have recently drawn much interest in computer vision and machine learning. This is in part due to the increasing number of important tasks such as meta-learning, clustering, and anomaly detection that are defined on set inputs. These networks must take an arbitrary number of input samples and produce the output invariant to the input set permutation. Several algorithms have been recently developed to address this urgent need. Our paper analyzes these algorithms using both synthetic and real-world datasets, and shows that they are not effective in dealing with common data variations such as image translation or viewpoint change. To address this limitation, we propose a permutation-invariant cascaded attentional set operator (PICASO). The gist of PICASO is a cascade of multihead attention blocks with dynamic templates. The proposed operator is a stand-alone module that can be adapted and extended to serve different machine learning tasks. We demonstrate the utilities of PICASO in four diverse scenarios: (i) clustering, (ii) image classification under novel viewpoints, (iii) image anomaly detection, and (iv) state prediction. PICASO increases the SmallNORB image classification accuracy with novel viewpoints by about 10% points. For set anomaly detection on CelebA dataset, our model improves the areas under ROC and PR curves dataset by about 22% and 10%, respectively. For the state prediction on CLEVR dataset, it improves the AP by about 40%.
