arXiv reaDer
PSFormer: 3D 顕著な物体検出のためのポイント トランスフォーマー
PSFormer: Point Transformer for 3D Salient Object Detection
3D 顕著物体検出のための有効点変換モデルである PSFormer を提案します。 PSFormer は、トランスフォーマーを最大限に活用して、マルチスケールのポイント単位とシーン単位の両方でコンテキスト情報をモデル化するエンコーダー/デコーダー ネットワークです。エンコーダーでは、Point Context Transformer (PCT) モジュールを開発して、ポイント レベルで領域のコンテキスト機能をキャプチャします。 PCT には、ポイント間の関係を掘り起こすための 2 つの異なるトランスフォーマーが含まれています。デコーダーでは、シーン レベルでコンテキスト表現を学習するためのシーン コンテキスト トランスフォーマー (SCT) モジュールを開発します。 SCT には、Upsampling-and-Transformer ブロックと Multi-context Aggregation ユニットの両方が含まれており、エンコーダーからのグローバル セマンティックおよびマルチレベル機能をグローバル シーン コンテキストに統合します。実験では、PSFormer が競合他社よりも明らかに改善されていることが示され、PSFormer が小さなオブジェクト、複数のオブジェクト、複雑な構造を持つオブジェクトなどの困難なケースに対してより堅牢であることが検証されています。
We propose PSFormer, an effective point transformer model for 3D salient object detection. PSFormer is an encoder-decoder network that takes full advantage of transformers to model the contextual information in both multi-scale point- and scene-wise manners. In the encoder, we develop a Point Context Transformer (PCT) module to capture region contextual features at the point level; PCT contains two different transformers to excavate the relationship among points. In the decoder, we develop a Scene Context Transformer (SCT) module to learn context representations at the scene level; SCT contains both Upsampling-and-Transformer blocks and Multi-context Aggregation units to integrate the global semantic and multi-level features from the encoder into the global scene context. Experiments show clear improvements of PSFormer over its competitors and validate that PSFormer is more robust to challenging cases such as small objects, multiple objects, and objects with complex structures.
updated: Fri Oct 28 2022 06:34:28 GMT+0000 (UTC)
published: Fri Oct 28 2022 06:34:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト