我々は、オブジェクトインスタンスのセグメンテーションのための概念的にシンプルで柔軟性のある一般的なフレームワークを提示します。我々のアプローチは、画像中のオブジェクトを効率的に検出すると同時に、各インスタンスの高品質なセグメンテーションマスクを生成します。Mask R-CNNと呼ばれる手法は、既存のバウンディングボックス認識のためのブランチと並行して、オブジェクトマスクを予測するためのブランチを追加することで、Faster R-CNNを拡張したものです。Mask R-CNNは学習が簡単で、Faster R-CNNにわずかなオーバーヘッドを追加するだけで、5 fpsで動作します。さらに、Mask R-CNNは他のタスクへの一般化が容易であり、例えば、同じフレームワークで人間のポーズを推定することができます。インスタンスセグメンテーション、バウンディングボックスオブジェクト検出、人物キーポイント検出を含むCOCOの課題の3つのトラックすべてでトップの結果を示しています。マスクR-CNNは、COCO 2016の課題の受賞者を含め、すべての課題において、既存の単一モデルのすべてのエントリーを上回る性能を発揮します。私たちのシンプルで効果的なアプローチが、確固たるベースラインとなり、インスタンスレベルの認識における将来の研究を容易にする一助となることを期待しています。コードは https://github.com/facebookresearch/Detectron で公開されています。
We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without bells and whistles, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code has been made available at: https://github.com/facebookresearch/Detectron