補助情報は、条件ベースの推論に基づく証拠のパラダイムを使用して、機械学習モデルで活用できます。ディープニューラルネットワーク(DNN)のマルチモーダルテクニックは、補助モダリティからの証拠を組み込むための潜在的な特徴表現を混乱させると見なすことができます。ただし、スパースな証拠を高次元の潜在空間ベクトルにマッピングできる特殊なネットワークのトレーニングが必要です。このようなネットワークの設計、およびトレーニング用の共同ラベル付きデータの収集は、簡単な作業ではありません。この論文では、これらの両方の欠点を克服できるDNNでの証拠に基づく条件付き推論を実行するための新しいマルチタスク学習(MTL)ベースのフレームワークを提示します。私たちのフレームワークは、元の問題を関心のある主要なタスクとしてモデル化しながら、二次的なタスクの出力として証拠を取り入れています。推論中に、観測された証拠の確率を最大化するために、ジョイントの潜在的特徴表現を変更するために、新しいベイズの定式化を採用しています。アプローチはDNNからの予測としてエビデンスをモデル化するため、一般的なタスクのために標準の事前トレーニングされたバックボーンを使用してこれを達成できる場合が多く、完全にトレーニングする必要はありません。トレーニングが必要な場合でも、当社のMTLアーキテクチャにより、共同でラベル付けされたデータを必要とせずに同じことが可能になります。フレームワークを使用してエビデンスを活用すると、画像タグが与えられたセマンティックセグメンテーションを予測するために、最新技術よりも3.9%、画像キャプションが与えられたインスタンスセグメンテーションを予測するために2.8%の改善が見られます。
Auxiliary information can be exploited in machine learning models using the paradigm of evidence based conditional inference. Multi-modal techniques in Deep Neural Networks (DNNs) can be seen as perturbing the latent feature representation for incorporating evidence from the auxiliary modality. However, they require training a specialized network which can map sparse evidence to a high dimensional latent space vector. Designing such a network, as well as collecting jointly labeled data for training is a non-trivial task. In this paper, we present a novel multi-task learning (MTL) based framework to perform evidence based conditional inference in DNNs which can overcome both these shortcomings. Our framework incorporates evidence as the output of secondary task(s), while modeling the original problem as the primary task of interest. During inference, we employ a novel Bayesian formulation to change the joint latent feature representation so as to maximize the probability of the observed evidence. Since our approach models evidence as prediction from a DNN, this can often be achieved using standard pre-trained backbones for popular tasks, eliminating the need for training altogether. Even when training is required, our MTL architecture ensures the same can be done without any need for jointly labeled data. Exploiting evidence using our framework, we show an improvement of 3.9% over the state-of-the-art, for predicting semantic segmentation given the image tags, and 2.8% for predicting instance segmentation given image captions.