この作業では、さまざまな抽象化レベルで抽出された特徴を使用して生成された中間マップ(目立ちやすさマップと呼ばれる)の階層的監視を採用する、ビデオ顕著性予測のための3D完全畳み込みアーキテクチャを提案します。基本的な階層学習メカニズムに、ドメイン適応とドメイン固有の学習のための2つの手法を提供します。前者の場合、トレーニング中に注釈が提供されないデータセットの一般化機能を強化するために、モデルが複数のスケールで勾配反転を使用して階層的な一般機能を監視なしで学習することをお勧めします。ドメインの特殊化については、パフォーマンスを最大化するために、個々のデータセットで学習した機能を特殊化することにより、ドメイン固有の操作(つまり、事前、平滑化、バッチ正規化)を採用しています。私たちの実験の結果は、提案されたモデルが教師あり顕著性予測で最先端の精度をもたらすことを示しています。基本階層モデルがドメイン固有のモジュールで強化されると、パフォーマンスが向上し、DHF1Kベンチマークの5つのメトリックのうち3つで最先端のモデルを上回り、他の2つで2番目に良い結果に達します。代わりに、教師なしドメイン適応設定でテストすると、階層的な勾配反転レイヤーを有効にすることで、教師付きの最先端技術に匹敵するパフォーマンスが得られます。
In this work, we propose a 3D fully convolutional architecture for video saliency prediction that employs hierarchical supervision on intermediate maps (referred to as conspicuity maps) generated using features extracted at different abstraction levels. We provide the base hierarchical learning mechanism with two techniques for domain adaptation and domain-specific learning. For the former, we encourage the model to unsupervisedly learn hierarchical general features using gradient reversal at multiple scales, to enhance generalization capabilities on datasets for which no annotations are provided during training. As for domain specialization, we employ domain-specific operations (namely, priors, smoothing and batch normalization) by specializing the learned features on individual datasets in order to maximize performance. The results of our experiments show that the proposed model yields state-of-the-art accuracy on supervised saliency prediction. When the base hierarchical model is empowered with domain-specific modules, performance improves, outperforming state-of-the-art models on three out of five metrics on the DHF1K benchmark and reaching the second-best results on the other two. When, instead, we test it in an unsupervised domain adaptation setting, by enabling hierarchical gradient reversal layers, we obtain performance comparable to supervised state-of-the-art.