arXiv reaDer
CLAIRE: A distributed-memory solver for constrained large deformation diffeomorphic image registration
 この作業により、3次元の制約付き大変形微分同相画像レジストレーション問題に対する効果的なソルバーの分散メモリ実装であるCLAIREをリリースします。最適な制御定式化を検討します。変形マップをパラメーター化する定常速度場に対して反転します。ソルバーは、グローバル化され、事前条件付けされた、不正確な縮小空間ガウス-ニュートン-クリロフ方式に基づいています。科学コンピューティングの最新技術を活用して、ハイエンドクラスタ上の数千の分散メモリノードに対応する効果的なソルバーを開発しています。定式化を提示し、アルゴリズムの特徴を議論し、ソフトウェアパッケージを説明し、ソルバーの収束を高速化するために、ヘッシアン空間を縮小するための改善された前提条件を導入します。合成データと実際のデータの登録パフォーマンスをテストします。いくつかのニューロイメージングデータセットの登録精度を示します。スキームのパフォーマンスを、微分同相画像レジストレーションのためのさまざまな種類のデモンズアルゴリズムと比較します。前提条件と全体的なアルゴリズムの収束を研究します。最先端のスーパーコンピューティングプラットフォームでのスケーラビリティの結果を報告します。 20コアの標準計算ノードで、臨床的に関連するデータサイズの登録の問題を2〜4分で解決し、優れたデータ忠実度を達成できることを実証します。現在の作業では、以前の作業と比較して最大17倍のピークパフォーマンスで(平均して)5倍の高速化を達成しています。
With this work, we release CLAIRE, a distributed-memory implementation of an effective solver for constrained large deformation diffeomorphic image registration problems in three dimensions. We consider an optimal control formulation. We invert for a stationary velocity field that parameterizes the deformation map. Our solver is based on a globalized, preconditioned, inexact reduced space Gauss--Newton--Krylov scheme. We exploit state-of-the-art techniques in scientific computing to develop an effective solver that scales to thousands of distributed memory nodes on high-end clusters. We present the formulation, discuss algorithmic features, describe the software package, and introduce an improved preconditioner for the reduced space Hessian to speed up the convergence of our solver. We test registration performance on synthetic and real data. We demonstrate registration accuracy on several neuroimaging datasets. We compare the performance of our scheme against different flavors of the Demons algorithm for diffeomorphic image registration. We study convergence of our preconditioner and our overall algorithm. We report scalability results on state-of-the-art supercomputing platforms. We demonstrate that we can solve registration problems for clinically relevant data sizes in two to four minutes on a standard compute node with 20 cores, attaining excellent data fidelity. With the present work we achieve a speedup of (on average) 5× with a peak performance of up to 17× compared to our former work.
updated: Mon Dec 09 2019 21:50:57 GMT+0000 (UTC)
published: Mon Aug 13 2018 22:59:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト