半教師あり学習は、ラベルのない画像を探索することにより、モデルの精度を高めることを目的としています。最先端の方法は一貫性に基づいており、さまざまな拡張の下で画像に一貫した予測を与えるようにモデルを奨励することにより、ラベルのない画像について学習します。ただし、ポーズ推定に適用すると、このメソッドは、ラベルのない画像のすべてのピクセルを背景として縮退および予測します。これは、クラスの分布が非常に不均衡であるため、矛盾する予測が徐々にバックグラウンドクラスにプッシュされるためです。ただし、正確なラベルが付いているため、これは教師あり学習の問題ではありません。これにより、信頼性の高い疑似ラベルを取得してトレーニングを安定させることができます。具体的には、2つのネットワークを学び、相互に教え合います。特に、画像ごとに、異なる拡張を適用して簡単にハードなペアを作成し、両方のネットワークにフィードします。各ネットワークの簡単な画像のより信頼性の高い予測は、対応するハード画像について学習するように他のネットワークに教えるために使用されます。このアプローチは、退化をうまく回避し、公開データセットで有望な結果を達成します。ソースコードが公開されます。
Semi-supervised learning aims to boost the accuracy of a model by exploring unlabeled images. The state-of-the-art methods are consistency-based which learn about unlabeled images by encouraging the model to give consistent predictions for images under different augmentations. However, when applied to pose estimation, the methods degenerate and predict every pixel in unlabeled images as background. This is because contradictory predictions are gradually pushed to the background class due to highly imbalanced class distribution. But this is not an issue in supervised learning because it has accurate labels. This inspires us to stabilize the training by obtaining reliable pseudo labels. Specifically, we learn two networks to mutually teach each other. In particular, for each image, we compose an easy-hard pair by applying different augmentations and feed them to both networks. The more reliable predictions on easy images in each network are used to teach the other network to learn about the corresponding hard images. The approach successfully avoids degeneration and achieves promising results on public datasets. The source code will be released.