arXiv reaDer
自由形式のテキストクエリによる手話ビデオ検索
Sign Language Video Retrieval with Free-Form Textual Queries
手話ビデオのコレクションを効率的に検索できるシステムは、手話技術の有用なアプリケーションとして注目されています。ただし、個々のキーワードを超えてビデオを検索する問題は、文献では限られた注目しか受けていません。このギャップに対処するために、この作業では、自由形式のテキストクエリを使用した手話検索のタスクを紹介します。書面によるクエリ(文など)と手話ビデオの大規模なコレクションが与えられた場合、目的は手話ビデオを見つけることです。記述されたクエリに最も一致するコレクション内。最近導入されたアメリカ手話(ASL)の大規模なHow2Signデータセットにクロスモーダル埋め込みを学習することにより、このタスクに取り組むことを提案します。システムのパフォーマンスにおける主要なボトルネックは、ラベル付けされたトレーニングデータの不足に悩まされているサインビデオ埋め込みの品質であると認識しています。したがって、利用可能なトレーニングデータの範囲と規模を拡大するために、標識スポッティングと機能調整の反復ラウンドをインターリーブするためのフレームワークであるSPOT-ALIGNを提案します。サイン認識と提案されたビデオ検索タスクの両方の改善を通じて、堅牢なサインビデオ埋め込みを学習するためのSPOT-ALIGNの有効性を検証します。
Systems that can efficiently search collections of sign language videos have been highlighted as a useful application of sign language technology. However, the problem of searching videos beyond individual keywords has received limited attention in the literature. To address this gap, in this work we introduce the task of sign language retrieval with free-form textual queries: given a written query (e.g., a sentence) and a large collection of sign language videos, the objective is to find the signing video in the collection that best matches the written query. We propose to tackle this task by learning cross-modal embeddings on the recently introduced large-scale How2Sign dataset of American Sign Language (ASL). We identify that a key bottleneck in the performance of the system is the quality of the sign video embedding which suffers from a scarcity of labeled training data. We, therefore, propose SPOT-ALIGN, a framework for interleaving iterative rounds of sign spotting and feature alignment to expand the scope and scale of available training data. We validate the effectiveness of SPOT-ALIGN for learning a robust sign video embedding through improvements in both sign recognition and the proposed video retrieval task.
updated: Fri Jan 07 2022 15:22:18 GMT+0000 (UTC)
published: Fri Jan 07 2022 15:22:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト