arXiv reaDer
都市規模の車両データセットを生成するための半教師あり学習を使用したバウンディングボックスのないインスタンスのセグメンテーション
Bounding Box-Free Instance Segmentation Using Semi-Supervised Learning for Generating a City-Scale Vehicle Dataset
車両の分類は、コンピュータビジョンのホットなトピックであり、地上から見た画像から上面の画像までさまざまな研究が行われています。リモートセンシングでは、トップビュー画像を使用することで、都市のパターン、車両の集中、交通管理などを理解できます。ただし、ピクセル単位の分類を目指す場合、いくつかの問題があります。(a)ほとんどの車両分類研究はオブジェクト検出方法を使用し、ほとんどの公開されているデータセットはこのタスク用に設計されています。(b)インスタンスセグメンテーションデータセットの作成は面倒です。(c )オブジェクトが小さいため、従来のインスタンスセグメンテーションメソッドはこのタスクでパフォーマンスが低下します。したがって、現在の研究目的は、(1)GISソフトウェアを使用した新しい半教師あり反復学習アプローチの提案、(2)ボックスフリーインスタンスセグメンテーションアプローチの提案、(3)都市規模の車両データセットの提供です。考慮される反復学習手順:(1)少数の車両にラベルを付ける、(2)それらのサンプルでトレーニングする、(3)モデルを使用して画像全体を分類する、(4)画像予測をポリゴンシェープファイルに変換する、(5 )エラーのあるいくつかの領域を修正してトレーニングデータに含め、(6)結果が満足のいくものになるまで繰り返します。インスタンスを分離するために、車内と車の境界を考慮し、DLモデルはEfficient-net-B7バックボーンを備えたU-netでした。境界線を削除すると、車内が分離され、一意のオブジェクト識別が可能になります。削除された1ピクセルの境界を復元するために、各予測を拡張する簡単な方法を提案しました。結果は、Mask-RCNNと比較した場合に優れたピクセル単位のメトリックを示しています(IoUの67%に対して82%)。オブジェクトごとの分析では、全体的な精度、適合率、再現率は90%を超えていました。このパイプラインはすべてのリモートセンシングターゲットに適用され、セグメンテーションとデータセットの生成に非常に効率的です。
Vehicle classification is a hot computer vision topic, with studies ranging from ground-view up to top-view imagery. In remote sensing, the usage of top-view images allows for understanding city patterns, vehicle concentration, traffic management, and others. However, there are some difficulties when aiming for pixel-wise classification: (a) most vehicle classification studies use object detection methods, and most publicly available datasets are designed for this task, (b) creating instance segmentation datasets is laborious, and (c) traditional instance segmentation methods underperform on this task since the objects are small. Thus, the present research objectives are: (1) propose a novel semi-supervised iterative learning approach using GIS software, (2) propose a box-free instance segmentation approach, and (3) provide a city-scale vehicle dataset. The iterative learning procedure considered: (1) label a small number of vehicles, (2) train on those samples, (3) use the model to classify the entire image, (4) convert the image prediction into a polygon shapefile, (5) correct some areas with errors and include them in the training data, and (6) repeat until results are satisfactory. To separate instances, we considered vehicle interior and vehicle borders, and the DL model was the U-net with the Efficient-net-B7 backbone. When removing the borders, the vehicle interior becomes isolated, allowing for unique object identification. To recover the deleted 1-pixel borders, we proposed a simple method to expand each prediction. The results show better pixel-wise metrics when compared to the Mask-RCNN (82% against 67% in IoU). On per-object analysis, the overall accuracy, precision, and recall were greater than 90%. This pipeline applies to any remote sensing target, being very efficient for segmentation and generating datasets.
updated: Tue Nov 23 2021 19:42:12 GMT+0000 (UTC)
published: Tue Nov 23 2021 19:42:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト