arXiv reaDer
OmniPD:トップビューの全方向性屋内シーンでのワンステップ人物検出
OmniPD: One-Step Person Detection in Top-View Omnidirectional Indoor Scenes
畳み込みニューラルネットワーク(CNN)に基づくトップビュー全方向性屋内シーン用のワンステップ人物検出器を提案します。最先端の人物検出器は遠近法画像で競争力のある結果に到達しますが、CNNアーキテクチャが欠落しているだけでなく、全方向画像の歪みに続くトレーニングデータにより、現在のアプローチはデータに適用できません。この方法では、遠近法変換を行わずに全方位画像で複数の人物のバウンディングボックスを直接予測します。これにより、前処理と後処理のオーバーヘッドが削減され、リアルタイムのパフォーマンスが可能になります。基本的な考え方は、全方位画像で検出するためのデータ拡張技術を使用して、透視画像でトレーニングされたCNNを微調整するために転送学習を利用することです。シングルショットマルチボックス検出器(SSD)の2つのバリエーションを微調整します。 1つ目は、特徴抽出器(moSSD)としてMobilenetv1FPNを使用します。 2つ目は、ResNet50 v1 FPN(resSSD)を使用します。どちらのモデルも、Microsoft Common Objects in Context(COCO)データセットで事前にトレーニングされています。特にクラスの人については、PASCALVOC07とVOC12のデータセットで両方のモデルを微調整します。オリジナルのSSDで提案された方法に加えて、ランダムな90度の回転とランダムな垂直反転がデータ拡張に使用されます。評価データセットでは、moSSDで67.3%、resSSDで74.9%の平均精度(AP)に達します。微調整プロセスを強化するために、HDA PersonデータセットのサブセットとPIROPOdatabaseのサブセットを追加し、透視画像の数をPASCALVOC07に減らします。 APは、moSSDで83.2%、resSSDで86.3%にそれぞれ上昇します。 Nvidia Quadro P6000を使用した場合、平均推論速度は、moSSDの場合は画像あたり28ミリ秒、resSSDの場合は画像あたり38ミリ秒です。私たちの方法は、他のCNNベースのオブジェクト検出器に適用可能であり、全方位画像内の他のオブジェクトを検出するために一般化できる可能性があります。
We propose a one-step person detector for topview omnidirectional indoor scenes based on convolutional neural networks (CNNs). While state of the art person detectors reach competitive results on perspective images, missing CNN architectures as well as training data that follows the distortion of omnidirectional images makes current approaches not applicable to our data. The method predicts bounding boxes of multiple persons directly in omnidirectional images without perspective transformation, which reduces overhead of pre- and post-processing and enables real-time performance. The basic idea is to utilize transfer learning to fine-tune CNNs trained on perspective images with data augmentation techniques for detection in omnidirectional images. We fine-tune two variants of Single Shot MultiBox detectors (SSDs). The first one uses Mobilenet v1 FPN as feature extractor (moSSD). The second one uses ResNet50 v1 FPN (resSSD). Both models are pre-trained on Microsoft Common Objects in Context (COCO) dataset. We fine-tune both models on PASCAL VOC07 and VOC12 datasets, specifically on class person. Random 90-degree rotation and random vertical flipping are used for data augmentation in addition to the methods proposed by original SSD. We reach an average precision (AP) of 67.3 % with moSSD and 74.9 % with resSSD onthe evaluation dataset. To enhance the fine-tuning process, we add a subset of HDA Person dataset and a subset of PIROPOdatabase and reduce the number of perspective images to PASCAL VOC07. The AP rises to 83.2 % for moSSD and 86.3 % for resSSD, respectively. The average inference speed is 28 ms per image for moSSD and 38 ms per image for resSSD using Nvidia Quadro P6000. Our method is applicable to other CNN-based object detectors and can potentially generalize for detecting other objects in omnidirectional images.
updated: Thu Apr 14 2022 09:41:53 GMT+0000 (UTC)
published: Thu Apr 14 2022 09:41:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト