arXiv reaDer
目に見える以上のものがあります:マルチモーダル知識を抽出することによる自己監視マルチオブジェクト検出と音声による追跡
There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
オブジェクトに固有の音の属性は、オブジェクトの検出と追跡のための豊富な表現を学習するための貴重な手がかりを提供できます。さらに、ビデオ内の視聴覚イベントの共起を利用して、環境内の音を監視するだけで、画像フィールド上のオブジェクトをローカライズできます。これまでのところ、これはカメラが静止しているシナリオで、単一のオブジェクトを検出する場合にのみ実現可能でした。さらに、これらの方法は、照明や天候の変化の影響を非常に受けやすいRGB画像に主に依存しているため、堅牢性が制限されています。この作業では、RGB、深度、熱画像などの多様なモダリティを活用して、補完的な手がかりを活用し、知識を単一のオーディオ学生ネットワークに抽出する複数の教師で構成される、新しい自己教師ありMM-DistillNetフレームワークを紹介します。マルチモーダル教師からの情報を自己監視方式で抽出することを容易にする新しいMTA損失関数を提案します。さらに、私たちは、労働集約的な手動の注釈に頼らないことを可能にする、オーディオ学生のための新しい自己監視の口実タスクを提案します。 RGB、深度、熱、およびオーディオモダリティの113,000を超える時間同期フレームを備えた大規模なマルチモーダルデータセットを紹介します。広範な実験は、私たちのアプローチが最先端の方法よりも優れている一方で、推論中や移動中であっても音だけを使用して複数のオブジェクトを検出できることを示しています。
Attributes of sound inherent to objects can provide valuable cues to learn rich representations for object detection and tracking. Furthermore, the co-occurrence of audiovisual events in videos can be exploited to localize objects over the image field by solely monitoring the sound in the environment. Thus far, this has only been feasible in scenarios where the camera is static and for single object detection. Moreover, the robustness of these methods has been limited as they primarily rely on RGB images which are highly susceptible to illumination and weather changes. In this work, we present the novel self-supervised MM-DistillNet framework consisting of multiple teachers that leverage diverse modalities including RGB, depth and thermal images, to simultaneously exploit complementary cues and distill knowledge into a single audio student network. We propose the new MTA loss function that facilitates the distillation of information from multimodal teachers in a self-supervised manner. Additionally, we propose a novel self-supervised pretext task for the audio student that enables us to not rely on labor-intensive manual annotations. We introduce a large-scale multimodal dataset with over 113,000 time-synchronized frames of RGB, depth, thermal, and audio modalities. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods while being able to detect multiple objects using only sound during inference and even while moving.
updated: Mon Mar 01 2021 23:42:18 GMT+0000 (UTC)
published: Mon Mar 01 2021 23:42:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト