arXiv reaDer
変更を探す:トリミングされていないWebビデオからオブジェクトの状態と状態を変更するアクションを学習する
Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos
人間の行動は、「リンゴを切る」、「靴を掃除する」、「コーヒーを注ぐ」などのオブジェクトの状態の変化を引き起こすことがよくあります。この論文では、最小限の監督で、長い未キュレーションのビデオで、対応する状態変更アクション(「コーヒーを注ぐ」)とともにオブジェクトの状態(たとえば、「空」および「満杯」のカップ)を一時的にローカライズしようとします。この作品の貢献は3つあります。まず、インターネットからのキュレーションされていない一連のビデオから、対応するオブジェクトの状態とともに状態変更アクションを共同で学習するための自己監視モデルを開発します。モデルは、因果的順序付け信号、つまり初期オブジェクト状態→操作アクション→終了状態によって自己監視されます。次に、ノイズの多い未キュレーションのトレーニングデータに対処するために、モデルには、トレーニング中に無関係なビデオを効率的に除外できる、少数の注釈付き静止画像によって監視されるノイズ適応型重み付けモジュールが組み込まれています。第3に、2600時間以上のビデオと34千のオブジェクト状態の変化を含む新しいデータセットを収集し、このデータの一部に手動で注釈を付けて、アプローチを検証します。私たちの結果は、ビデオでのアクションとオブジェクトの状態認識の両方で、以前の作業に比べて大幅な改善を示しています。
Human actions often induce changes of object states such as "cutting an apple", "cleaning shoes" or "pouring coffee". In this paper, we seek to temporally localize object states (e.g. "empty" and "full" cup) together with the corresponding state-modifying actions ("pouring coffee") in long uncurated videos with minimal supervision. The contributions of this work are threefold. First, we develop a self-supervised model for jointly learning state-modifying actions together with the corresponding object states from an uncurated set of videos from the Internet. The model is self-supervised by the causal ordering signal, i.e. initial object state → manipulating action → end state. Second, to cope with noisy uncurated training data, our model incorporates a noise adaptive weighting module supervised by a small number of annotated still images, that allows to efficiently filter out irrelevant videos during training. Third, we collect a new dataset with more than 2600 hours of video and 34 thousand changes of object states, and manually annotate a part of this data to validate our approach. Our results demonstrate substantial improvements over prior work in both action and object state-recognition in video.
updated: Tue Mar 22 2022 11:45:10 GMT+0000 (UTC)
published: Tue Mar 22 2022 11:45:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト