一時的なローカライズは、ビデオを理解する上で重要な課題です。この作業では、Google Researchが主催する第3回YouTube-8Mビデオ理解チャレンジのソリューションを紹介します。参加者は、ノイズの多いビデオレベルラベルのある大規模なトレーニングデータセットと、正確なセグメントレベルのラベルのある比較的小規模な検証データセットを使用して、セグメントレベルの分類器を構築する必要がありました。この問題を複数インスタンスのマルチラベル学習として定式化し、注意の重みによって重要なフレームを選択的に強調する注意ベースのメカニズムを開発しました。アテンションネットワークの複数のセットを構築することにより、モデルのパフォーマンスがさらに向上します。セグメントレベルのデータセットを使用して、モデルをさらに微調整しました。最終的なモデルは、アテンション/マルチアテンションネットワークのアンサンブル、ディープバッグフレームモデル、リカレントニューラルネットワーク、畳み込みニューラルネットワークで構成されています。プライベートリーダーボードで13位にランクされ、リソースの効率的な使用が際立っています。
Temporal localization remains an important challenge in video understanding. In this work, we present our solution to the 3rd YouTube-8M Video Understanding Challenge organized by Google Research. Participants were required to build a segment-level classifier using a large-scale training data set with noisy video-level labels and a relatively small-scale validation data set with accurate segment-level labels. We formulated the problem as a multiple instance multi-label learning and developed an attention-based mechanism to selectively emphasize the important frames by attention weights. The model performance is further improved by constructing multiple sets of attention networks. We further fine-tuned the model using the segment-level data set. Our final model consists of an ensemble of attention/multi-attention networks, deep bag of frames models, recurrent neural networks and convolutional neural networks. It ranked 13th on the private leader board and stands out for its efficient usage of resources.