arXiv reaDer
画像キャプションと視覚的な質問応答のための自動解析ネットワーク
Auto-Parsing Network for Image Captioning and Visual Question Answering
Transformerベースのビジョン言語システムの有効性を向上させるために、入力データの隠しツリー構造を検出して活用する自動解析ネットワーク(APN)を提案します。具体的には、各自己注意層の注意操作によってパラメーター化された確率的グラフィカルモデル(PGM)を課して、疎な仮定を組み込みます。このPGMを使用して、入力シーケンスをいくつかのクラスターにソフトにセグメント化し、各クラスターを内部エンティティの親として扱うことができます。これらのPGM制約付き自己注意レイヤーをスタックすることにより、下位レイヤーのクラスターが新しいシーケンスに構成され、上位レイヤーのPGMがこのシーケンスをさらにセグメント化します。繰り返し、スパースツリーは暗黙的に解析でき、このツリーの階層的知識は、ターゲットの視覚言語タスクを解決するために使用できる変換された埋め込みに組み込まれます。具体的には、APNが2つの主要な視覚言語タスクであるキャプションと視覚的質問応答でTransformerベースのネットワークを強化できることを示します。また、PGM確率ベースの解析アルゴリズムが開発されており、推論中に入力の隠れた構造が何であるかを発見できます。
We propose an Auto-Parsing Network (APN) to discover and exploit the input data's hidden tree structures for improving the effectiveness of the Transformer-based vision-language systems. Specifically, we impose a Probabilistic Graphical Model (PGM) parameterized by the attention operations on each self-attention layer to incorporate sparse assumption. We use this PGM to softly segment an input sequence into a few clusters where each cluster can be treated as the parent of the inside entities. By stacking these PGM constrained self-attention layers, the clusters in a lower layer compose into a new sequence, and the PGM in a higher layer will further segment this sequence. Iteratively, a sparse tree can be implicitly parsed, and this tree's hierarchical knowledge is incorporated into the transformed embeddings, which can be used for solving the target vision-language tasks. Specifically, we showcase that our APN can strengthen Transformer based networks in two major vision-language tasks: Captioning and Visual Question Answering. Also, a PGM probability-based parsing algorithm is developed by which we can discover what the hidden structure of input is during the inference.
updated: Tue Aug 24 2021 08:14:35 GMT+0000 (UTC)
published: Tue Aug 24 2021 08:14:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト