arXiv reaDer
Wi-Fi信号による人間のシルエットとスケルトンビデオの合成
Human Silhouette and Skeleton Video Synthesis through Wi-Fi signals
ワイヤレスアクセスポイント(AP)の可用性の向上は、信号が照明の変化などのよく知られた視覚関連の問題に対処できるようにする、広範な視覚センサーのサポートまたは代替ツールとしてのWi-Fi信号に基づく人間のセンシングアプリケーションにつながります。またはオクルージョン。実際、画像合成技術を使用して無線周波数を可視スペクトルに変換することは、他の方法では利用できない視覚データを取得するために不可欠になる可能性があります。このドメインからドメインへの変換は、物体と人の両方が電磁波に影響を及ぼし、無線周波数と光周波数の変動を引き起こすため、実行可能です。文献では、Wi-Fi APのチャネル状態情報(CSI)を介して無線ドメインで周波数変化を観察できるため、無線から視覚への特徴マッピングを推測できるモデルがここ数年で勢いを増しており、信号ベースが可能になっています。特徴抽出、例えば、振幅。このため、この論文では、クロスモダリティ監視戦略を活用する教師と生徒の設計に従って、無線データを視覚的特徴に効果的にマッピングする新しい2分岐生成ニューラルネットワークを紹介します。後者は、視覚データを完全に置き換えるために、視覚領域の信号ベースの機能を条件付けます。トレーニングが完了すると、提案された方法は、Wi-Fi信号のみを使用して人間のシルエットとスケルトンのビデオを合成します。このアプローチは、公開されているデータで評価され、シルエットとスケルトンの両方のビデオ生成で注目に値する結果が得られ、提案されたクロスモダリティ監視戦略の有効性が実証されています。
The increasing availability of wireless access points (APs) is leading towards human sensing applications based on Wi-Fi signals as support or alternative tools to the widespread visual sensors, where the signals enable to address well-known vision-related problems such as illumination changes or occlusions. Indeed, using image synthesis techniques to translate radio frequencies to the visible spectrum can become essential to obtain otherwise unavailable visual data. This domain-to-domain translation is feasible because both objects and people affect electromagnetic waves, causing radio and optical frequencies variations. In literature, models capable of inferring radio-to-visual features mappings have gained momentum in the last few years since frequency changes can be observed in the radio domain through the channel state information (CSI) of Wi-Fi APs, enabling signal-based feature extraction, e.g., amplitude. On this account, this paper presents a novel two-branch generative neural network that effectively maps radio data into visual features, following a teacher-student design that exploits a cross-modality supervision strategy. The latter conditions signal-based features in the visual domain to completely replace visual data. Once trained, the proposed method synthesizes human silhouette and skeleton videos using exclusively Wi-Fi signals. The approach is evaluated on publicly available data, where it obtains remarkable results for both silhouette and skeleton videos generation, demonstrating the effectiveness of the proposed cross-modality supervision strategy.
updated: Fri Mar 11 2022 11:40:34 GMT+0000 (UTC)
published: Fri Mar 11 2022 11:40:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト