arXiv reaDer
視覚認識のための注意駆動型階層マルチスケール表現
An attention-driven hierarchical multi-scale representation for visual recognition
畳み込みニューラルネットワーク(CNN)は、ビジュアルコンテンツの理解に革命をもたらしました。これは主に、画像をより小さな断片に分解し、マルチスケールのローカライズされた特徴を抽出し、それらを構成して意思決定のための表現力の高い表現を構築する能力によるものです。ただし、畳み込み操作は固定サイズのウィンドウで動作するため、ピクセル間の任意の関係などの長距離の依存関係をキャプチャすることはできません。したがって、微妙な変化(きめ細かい視覚認識など)の識別には適さない場合があります。この目的のために、提案された方法は、マルチスケール階層領域間の関係を確立することによって情報を集約するグラフ畳み込みネットワーク(GCN)を探索することによって、高レベルの長距離依存関係をキャプチャします。これらの領域は、小さい(近くに見える)から大きい(遠くに見える)までで構成され、領域間の依存関係は、特定の領域の近傍を強調するグラフ構造によって導かれる革新的な注意駆動型メッセージ伝播によってモデル化されます。私たちのアプローチはシンプルですが、きめ細かい視覚分類問題と一般的な視覚分類問題の両方を解決するのに非常に効果的です。これは、3つでかなりのマージンを持って最先端を上回り、他の2つのデータセットで非常に競争力があります。
Convolutional Neural Networks (CNNs) have revolutionized the understanding of visual content. This is mainly due to their ability to break down an image into smaller pieces, extract multi-scale localized features and compose them to construct highly expressive representations for decision making. However, the convolution operation is unable to capture long-range dependencies such as arbitrary relations between pixels since it operates on a fixed-size window. Therefore, it may not be suitable for discriminating subtle changes (e.g. fine-grained visual recognition). To this end, our proposed method captures the high-level long-range dependencies by exploring Graph Convolutional Networks (GCNs), which aggregate information by establishing relationships among multi-scale hierarchical regions. These regions consist of smaller (closer look) to larger (far look), and the dependency between regions is modeled by an innovative attention-driven message propagation, guided by the graph structure to emphasize the neighborhoods of a given region. Our approach is simple yet extremely effective in solving both the fine-grained and generic visual classification problems. It outperforms the state-of-the-arts with a significant margin on three and is very competitive on other two datasets.
updated: Sat Oct 23 2021 09:22:22 GMT+0000 (UTC)
published: Sat Oct 23 2021 09:22:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト