arXiv reaDer
ドメインアダプティブハンドキーポイントと実際のピクセルローカリゼーション
Domain Adaptive Hand Keypoint and Pixel Localization in the Wild
非常に異なる条件(屋内など)で撮影されたラベル付き画像のみを使用する場合、新しいイメージング条件(屋外など)での回帰ハンドキーポイントとピクセルレベルのハンドマスクのセグメント化のパフォーマンスを向上させることを目指しています。現実の世界では、両方のタスク用にトレーニングされたモデルがさまざまなイメージング条件下で機能することが重要です。ただし、既存のラベル付き手のデータセットでカバーされるバリエーションは限られています。したがって、ラベル付き画像(ソース)でトレーニングされたモデルを、画像条件が見えないラベルなし画像(ターゲット)に適合させる必要があります。自己トレーニングドメイン適応方法(つまり、ラベルのないターゲット画像から自己監視方式で学習する)が両方のタスクに対して開発されましたが、ターゲット画像の予測にノイズが多い場合、それらのトレーニングによってパフォーマンスが低下する可能性があります。これを回避するには、セルフトレーニング中にノイズの多い予測に低い重要度(信頼度)の重みを割り当てることが重要です。この論文では、2つの予測の発散を利用して、両方のタスクのターゲット画像の信頼度を推定することを提案します。これらの予測は2つの別々のネットワークから与えられ、それらの発散はノイズの多い予測を識別するのに役立ちます。提案された信頼度推定を自己訓練に統合するために、2つのネットワーク(教師)が自己訓練のためのネットワーク(学生)を監督し、教師が知識蒸留によって学生から学習される教師-学生フレームワークを提案します。私たちの実験は、さまざまな照明、オブジェクト、背景、カメラの視点をつかむ適応設定において、最先端の方法よりも優れていることを示しています。私たちの方法は、最新の敵対的適応方法と比較して、HO3Dのマルチタスクスコアを4%向上させます。また、屋外でのイメージング条件が急速に変化する自己中心的なビデオであるEgo4Dでの方法を検証します。
We aim to improve the performance of regressing hand keypoints and segmenting pixel-level hand masks under new imaging conditions (e.g., outdoors) when we only have labeled images taken under very different conditions (e.g., indoors). In the real world, it is important that the model trained for both tasks works under various imaging conditions. However, their variation covered by existing labeled hand datasets is limited. Thus, it is necessary to adapt the model trained on the labeled images (source) to unlabeled images (target) with unseen imaging conditions. While self-training domain adaptation methods (i.e., learning from the unlabeled target images in a self-supervised manner) have been developed for both tasks, their training may degrade performance when the predictions on the target images are noisy. To avoid this, it is crucial to assign a low importance (confidence) weight to the noisy predictions during self-training. In this paper, we propose to utilize the divergence of two predictions to estimate the confidence of the target image for both tasks. These predictions are given from two separate networks, and their divergence helps identify the noisy predictions. To integrate our proposed confidence estimation into self-training, we propose a teacher-student framework where the two networks (teachers) provide supervision to a network (student) for self-training, and the teachers are learned from the student by knowledge distillation. Our experiments show its superiority over state-of-the-art methods in adaptation settings with different lighting, grasping objects, backgrounds, and camera viewpoints. Our method improves by 4% the multi-task score on HO3D compared to the latest adversarial adaptation method. We also validate our method on Ego4D, egocentric videos with rapid changes in imaging conditions outdoors.
updated: Thu Jul 14 2022 06:43:48 GMT+0000 (UTC)
published: Wed Mar 16 2022 01:32:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト