arXiv reaDer
話す、書かないでください:直接話法ベースの画像検索の研究
Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval
音声ベースの画像検索は、通常は検索自体に重点を置くことなく、共同表現学習の代用として研究されてきました。そのため、音声ベースの検索が実際にどの程度うまく機能するかは不明です。絶対的な意味でも、自動音声認識(ASR)と強力なテキストエンコーダーを組み合わせた代替戦略の両方でも同様です。この作業では、エンコーダアーキテクチャ、トレーニング方法(ユニモーダルおよびマルチモーダルの事前トレーニングを含む)、およびその他の要素の選択肢を広範囲に調査および拡張します。私たちの実験は、Flickr Audio、Places Audio、LocalizedNarrativesの3つのデータセットでさまざまな種類の音声をカバーしています。私たちの最良のモデル構成は、最先端技術を大幅に上回ります。たとえば、Flickr Audioの場合は21.8%から33.2%に、Places Audioの場合は27.6%から53.4%にリコールをプッシュします。また、音声が自発的であるか、アクセントが付いているか、または自動的に転写するのが難しい場合に、カスケードされたASRからテキストへのエンコーディングと一致または超えることができる最高の音声ベースのモデルを示します。
Speech-based image retrieval has been studied as a proxy for joint representation learning, usually without emphasis on retrieval itself. As such, it is unclear how well speech-based retrieval can work in practice -- both in an absolute sense and versus alternative strategies that combine automatic speech recognition (ASR) with strong text encoders. In this work, we extensively study and expand choices of encoder architectures, training methodology (including unimodal and multimodal pretraining), and other factors. Our experiments cover different types of speech in three datasets: Flickr Audio, Places Audio, and Localized Narratives. Our best model configuration achieves large gains over state of the art, e.g., pushing recall-at-one from 21.8% to 33.2% for Flickr Audio and 27.6% to 53.4% for Places Audio. We also show our best speech-based models can match or exceed cascaded ASR-to-text encoding when speech is spontaneous, accented, or otherwise hard to automatically transcribe.
updated: Mon Apr 05 2021 13:11:40 GMT+0000 (UTC)
published: Mon Apr 05 2021 13:11:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト