この作業では、10647個の固定領域提案の並列分類として、「You Only LookOnce」(YOLO)の単一ステージオブジェクト検出アプローチについて説明します。 YOLOの各出力ピクセルが、ローカル領域の提案に匹敵する、前のレイヤーの特定のサブ領域に注意を払っていることを示すことで、このビューをサポートします。この理解により、YOLOのような単一ステージのオブジェクト検出モデル、RCNNのような2ステージの領域提案ベースのモデル、およびResNetのような画像分類モデル間の概念的なギャップが減少します。さらに、YOLO情報処理ストリームをより視覚的に理解するためのインタラクティブな探索ツールを作成しました:https://limchr.github.io/yolo_visualization
With this work we are explaining the "You Only Look Once" (YOLO) single-stage object detection approach as a parallel classification of 10647 fixed region proposals. We support this view by showing that each of YOLOs output pixel is attentive to a specific sub-region of previous layers, comparable to a local region proposal. This understanding reduces the conceptual gap between YOLO-like single-stage object detection models, RCNN-like two-stage region proposal based models, and ResNet-like image classification models. In addition, we created interactive exploration tools for a better visual understanding of the YOLO information processing streams: https://limchr.github.io/yolo_visualization