arXiv reaDer
ステップバイステップの説明図をビデオデモンストレーションに合わせる
Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
マルチモーダル アラインメントは、別のモダリティを使用してクエリを実行したときに、あるモダリティからのインスタンスの取得を容易にします。このホワイト ペーパーでは、(i) 組み立て図 (Ikea の組み立てマニュアルでよく見られる) として描かれている指示ステップと (ii) 現場のビデオからのビデオ セグメントとの間で、そのような調整が行われる新しい設定を検討します。これらのビデオは、現実世界での組み立てアクションの制定から構成されています。この調整を学習するために、一連の新しい損失に導かれて、ビデオをアセンブリ図の微妙な詳細に合わせることを学習する、新しい教師あり対照学習方法を紹介します。この問題を研究し、私たちの方法の有効性を実証するために、新しいデータセットを紹介します。さまざまな家具組み立てコレクションからの 183 時間のビデオと、関連する取扱説明書からの約 8,300 の図で構成され、その根拠について注釈が付けられた、野生の Ikea 組み立ての IAW です。真実のアライメント。このデータセットで 2 つのタスクを定義します。1 つ目は、ビデオ セグメントとイラストの間の最近傍検索、2 つ目は、各ビデオの指示ステップとセグメントの配置です。 IAW に関する広範な実験は、代替案に対する私たちのアプローチの優れたパフォーマンスを示しています。
Multimodal alignment facilitates the retrieval of instances from one modality when queried using another. In this paper, we consider a novel setting where such an alignment is between (i) instruction steps that are depicted as assembly diagrams (commonly seen in Ikea assembly manuals) and (ii) video segments from in-the-wild videos; these videos comprising an enactment of the assembly actions in the real world. To learn this alignment, we introduce a novel supervised contrastive learning method that learns to align videos with the subtle details in the assembly diagrams, guided by a set of novel losses. To study this problem and demonstrate the effectiveness of our method, we introduce a novel dataset: IAW for Ikea assembly in the wild consisting of 183 hours of videos from diverse furniture assembly collections and nearly 8,300 illustrations from their associated instruction manuals and annotated for their ground truth alignments. We define two tasks on this dataset: First, nearest neighbor retrieval between video segments and illustrations, and, second, alignment of instruction steps and the segments for each video. Extensive experiments on IAW demonstrate superior performances of our approach against alternatives.
updated: Mon Mar 27 2023 05:53:10 GMT+0000 (UTC)
published: Fri Mar 24 2023 04:45:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト