arXiv reaDer
多対多のエンコーダー/デコーダーパラダイムによるリアルタイムの壁貫通ポーズイメージング
Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  視覚的な障壁を克服し、「シースルービジョン」を開発することは、人類の長年の夢の1つです。可視光とは異なり、無線周波数(RF)信号は不透明な障害物を透過し、人間に強く反射します。この論文では、視覚的閉塞を介しても15ポイントの人間の骨格の連続ビデオを再構築するように訓練できる深層学習モデルを確立します。トレーニングプロセスでは、ファインマン学習手法に触発された学生/教師の学習手順を採用します。この手順では、光学カメラとRFアンテナアレイトランシーバーを含む同じ場所にあるセットアップを使用して、ビデオフレームとRFデータが最初に同時に収集されます。次に、ビデオフレームはコンピュータービジョンベースの歩行分析「教師」モジュールで処理され、各フレームの地上の真実の人間の骨格が生成されます。次に、同じタイプのスケルトンが、残留畳み込みニューラルネットワーク(CNN)、領域提案ネットワーク(RPN)、および長期短期記憶を備えたリカレントニューラルネットワークで構成される「学生」深層学習モデルを使用して、対応するRFデータから予測されます。 (LSTM)1)RF画像から空間的特徴を抽出し、2)シーンに存在するすべての人々を検出し、3)多くの時間ステップにわたって情報を集約します。このモデルは、RF信号のみを使用して、視覚障害の背後にある人間の姿勢を正確かつ完全に予測することが示されています。主な学術的貢献には、多対多の新しいイメージング方法論、RPNとLSTMネットワークの独自の統合、および独自のトレーニングパイプラインが含まれます。
Overcoming the visual barrier and developing "see-through vision" has been one of mankind's long-standing dreams. Unlike visible light, Radio Frequency (RF) signals penetrate opaque obstructions and reflect highly off humans. This paper establishes a deep-learning model that can be trained to reconstruct continuous video of a 15-point human skeleton even through visual occlusion. The training process adopts a student/teacher learning procedure inspired by the Feynman learning technique, in which video frames and RF data are first collected simultaneously using a co-located setup containing an optical camera and an RF antenna array transceiver. Next, the video frames are processed with a computer-vision-based gait analysis "teacher" module to generate ground-truth human skeletons for each frame. Then, the same type of skeleton is predicted from corresponding RF data using a "student" deep-learning model consisting of a Residual Convolutional Neural Network (CNN), Region Proposal Network (RPN), and Recurrent Neural Network with Long-Short Term Memory (LSTM) that 1) extracts spatial features from RF images, 2) detects all people present in a scene, and 3) aggregates information over many time-steps, respectively. The model is shown to both accurately and completely predict the pose of humans behind visual obstruction solely using RF signals. Primary academic contributions include the novel many-to-many imaging methodology, unique integration of RPN and LSTM networks, and original training pipeline.
updated: Sun Oct 20 2019 05:52:38 GMT+0000 (UTC)
published: Fri Mar 15 2019 19:05:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト