ビデオフレームの注意深く重要な領域は、各フレームのセマンティクスの大部分を占めています。この情報は、娯楽(自動生成解説や観光ガイドなど)だけでなく、腹腔鏡手術に対応した腹腔鏡を保持するロボット制御にも役立つ多くのアプリケーションに役立ちます。ただし、ビデオ内でそのようなセマンティック領域を定義して見つけることは必ずしも簡単ではありません。この作業では、RNNベースの視覚的注意モデルで固視ラベルを活用することにより、ビデオ内の関連する領域に参加する問題に対処しようとします。私たちの実験結果は、このアプローチがビデオのセマンティック領域に参加することを学ぶ良い可能性を秘めている一方で、そのパフォーマンスも注視ラベルの品質に大きく依存していることを示唆しています。
Attentively important regions in video frames account for a majority part of the semantics in each frame. This information is helpful in many applications not only for entertainment (such as auto generating commentary and tourist guide) but also for robotic control which holds a larascope supported for laparoscopic surgery. However, it is not always straightforward to define and locate such semantic regions in videos. In this work, we attempt to address the problem of attending relevant regions in videos by leveraging the eye fixations labels with a RNN-based visual attention model. Our experimental results suggest that this approach holds a good potential to learn to attend semantic regions in videos while its performance also heavily relies on the quality of eye fixations labels.