Transformerは、特に言語理解のために、広く使用されているニューラルネットワークアーキテクチャです。画像、テキスト、ビデオなど、さまざまなモダリティを伴うタスクに使用できる拡張された統合アーキテクチャを紹介します。対応する隠された状態に加えて、入力の空間次元を学習できる時空間キャッシュメカニズムを提案します。時間入力シーケンスに。提案されたアーキテクチャにより、単一のモデルで複数の入力モダリティを持つタスクと非同期マルチタスク学習をサポートできるようになるため、これをOmniNetと呼びます。たとえば、OmniNetの単一のインスタンスは、品詞タグ付け、イメージキャプション、視覚的な質問応答、およびビデオアクティビティ認識のタスクを同時に実行することを学習できます。これら4つのタスクを一緒にトレーニングすると、個別にトレーニングする場合と比較してパフォーマンスを維持しながら、約3倍の圧縮モデルが得られることを示しています。また、いくつかのモダリティで事前トレーニングされたこのニューラルネットワークを使用すると、ビデオのキャプションやビデオの質問への回答など、目に見えないタスクの学習に役立つことも示しています。これは、OmniNetに存在する時空間キャッシュ上の自己注意メカニズムの一般化能力を示しています。
Transformer is a popularly used neural network architecture, especially for language understanding. We introduce an extended and unified architecture that can be used for tasks involving a variety of modalities like image, text, videos, etc. We propose a spatio-temporal cache mechanism that enables learning spatial dimension of the input in addition to the hidden states corresponding to the temporal input sequence. The proposed architecture further enables a single model to support tasks with multiple input modalities as well as asynchronous multi-task learning, thus we refer to it as OmniNet. For example, a single instance of OmniNet can concurrently learn to perform the tasks of part-of-speech tagging, image captioning, visual question answering and video activity recognition. We demonstrate that training these four tasks together results in about three times compressed model while retaining the performance in comparison to training them individually. We also show that using this neural network pre-trained on some modalities assists in learning unseen tasks such as video captioning and video question answering. This illustrates the generalization capacity of the self-attention mechanism on the spatio-temporal cache present in OmniNet.