カメラ トラップ、無人観測装置、ディープ ラーニング ベースの画像認識システムにより、野生生物の画像を収集して分析する人間の労力が大幅に削減されました。しかし、上記の装置を介して収集されたデータは、1) ロングテールおよび 2) 無制限の分布の問題を示します。オープン セットのロングテール認識問題に取り組むために、1) オプティカル フロー モジュール、2) 注意残差モジュール、および 3) メタ埋め込み分類子の 3 つの主要なビルディング ブロックで構成される Temporal Flow Mask Attention Network を提案します。オプティカル フロー モジュールを使用して連続フレームの時間的特徴を抽出し、注意残差ブロックを使用して有益な表現を学習します。さらに、メタ埋め込み手法を適用すると、オープンセットのロングテール認識でメソッドのパフォーマンスが向上することを示します。この方法を韓国の非武装地帯 (DMZ) データセットに適用します。大規模な実験と定量的および定性的分析を実施して、未知のクラスに対してロバストでありながら、オープンセットのロングテール認識問題に効果的に取り組むことを証明します。
Camera traps, unmanned observation devices, and deep learning-based image recognition systems have greatly reduced human effort in collecting and analyzing wildlife images. However, data collected via above apparatus exhibits 1) long-tailed and 2) open-ended distribution problems. To tackle the open-set long-tailed recognition problem, we propose the Temporal Flow Mask Attention Network that comprises three key building blocks: 1) an optical flow module, 2) an attention residual module, and 3) a meta-embedding classifier. We extract temporal features of sequential frames using the optical flow module and learn informative representation using attention residual blocks. Moreover, we show that applying the meta-embedding technique boosts the performance of the method in open-set long-tailed recognition. We apply this method on a Korean Demilitarized Zone (DMZ) dataset. We conduct extensive experiments, and quantitative and qualitative analyses to prove that our method effectively tackles the open-set long-tailed recognition problem while being robust to unknown classes.