時間概念のローカリゼーションのタスクのための新しいクロスクラス関連性学習アプローチを提示します。ほとんどのローカリゼーションアーキテクチャは、特徴抽出レイヤーに続いて、各セグメントのクラス確率を出力する分類レイヤーに依存しています。ただし、多くの実際のアプリケーションでは、クラスはこのアーキテクチャではモデル化が難しい複雑な関係を示すことがあります。対照的に、ターゲットクラスとクラス関連の機能を入力として組み込み、ペアワイズバイナリモデルを学習して、一般的なセグメントとクラスの関連性を予測することを提案します。これにより、クラス間の共有情報の学習が容易になり、クラス固有の任意の機能エンジニアリングが可能になります。このアプローチを他の主要モデルと一緒に第3回YouTube-8Mビデオ理解チャレンジに適用し、280以上のチームの中で1位を獲得しました。このホワイトペーパーでは、アプローチを説明し、いくつかの経験的な結果を示します。
We present a novel Cross-Class Relevance Learning approach for the task of temporal concept localization. Most localization architectures rely on feature extraction layers followed by a classification layer which outputs class probabilities for each segment. However, in many real-world applications classes can exhibit complex relationships that are difficult to model with this architecture. In contrast, we propose to incorporate target class and class-related features as input, and learn a pairwise binary model to predict general segment to class relevance. This facilitates learning of shared information between classes, and allows for arbitrary class-specific feature engineering. We apply this approach to the 3rd YouTube-8M Video Understanding Challenge together with other leading models, and achieve first place out of over 280 teams. In this paper we describe our approach and show some empirical results.