arXiv reaDer
3D-OAE: 点群の自己教師あり学習のためのオクルージョン オート エンコーダー
3D-OAE: Occlusion Auto-Encoders for Self-Supervised Learning on Point Clouds
大規模な点群に対する手動の注釈付けは依然として退屈であり、現実世界の多くの過酷なタスクには利用できません。深層ニューラル ネットワークを事前トレーニングするために未加工のラベルなしデータで使用される自己教師あり学習は、この問題に対処するための有望なアプローチです。既存の作品は、通常、自己再構築スキーマによる自己監視を確立するために、自動エンコーダーから共通の支援を受けています。ただし、以前のオート エンコーダーは単にグローバル シェイプに焦点を合わせており、ローカル ジオメトリック フィーチャとグローバル ジオメトリック フィーチャを区別していません。この問題に対処するために、3D Occlusion Auto-Encoder (3D-OAE) と呼ばれる、斬新で効率的な自己教師付き点群表現学習フレームワークを提示し、ローカル領域とグローバル形状で継承された詳細な監視を容易にします。点群のいくつかのローカル パッチをランダムにオクルージョンし、残りのパッチを使用してオクルージョンされたパッチを修復することで監視を確立することを提案します。具体的には、標準の Transformer に基づいた非対称のエンコーダー/デコーダー アーキテクチャを設計します。このアーキテクチャーでは、エンコーダーはパッチの可視サブセットのみで動作し、ローカル パターンを学習します。軽量デコーダーは、これらの可視パターンを活用して、自己を介して欠落しているジオメトリを推測するように設計されています。注意。入力ポイント クラウドの非常に高い割合 (たとえば 75%) を遮蔽しても、自明ではない自己監視パフォーマンスが得られることがわかりました。これにより、トレーニング中に 3 ~ 4 倍の速度を達成できるだけでなく、精度も向上します。実験結果は、私たちのアプローチが、さまざまな下流の識別的および生成的タスクで最先端技術よりも優れていることを示しています。
The manual annotation for large-scale point clouds is still tedious and unavailable for many harsh real-world tasks. Self-supervised learning, which is used on raw and unlabeled data to pre-train deep neural networks, is a promising approach to address this issue. Existing works usually take the common aid from auto-encoders to establish the self-supervision by the self-reconstruction schema. However, the previous auto-encoders merely focus on the global shapes and do not distinguish the local and global geometric features apart. To address this problem, we present a novel and efficient self-supervised point cloud representation learning framework, named 3D Occlusion Auto-Encoder (3D-OAE), to facilitate the detailed supervision inherited in local regions and global shapes. We propose to randomly occlude some local patches of point clouds and establish the supervision via inpainting the occluded patches using the remaining ones. Specifically, we design an asymmetrical encoder-decoder architecture based on standard Transformer, where the encoder operates only on the visible subset of patches to learn local patterns, and a lightweight decoder is designed to leverage these visible patterns to infer the missing geometries via self-attention. We find that occluding a very high proportion of the input point cloud (e.g. 75%) will still yield a nontrivial self-supervisory performance, which enables us to achieve 3-4 times faster during training but also improve accuracy. Experimental results show that our approach outperforms the state-of-the-art on a diverse range of downstream discriminative and generative tasks.
updated: Fri Oct 28 2022 04:44:00 GMT+0000 (UTC)
published: Sat Mar 26 2022 14:06:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト