多くのマルコフ確率場(MRF)最適化アルゴリズムが利用可能であるにもかかわらず、手作りのモデルパラメーターと劣った推論アルゴリズムの選択から生じる不完全なMRFモデリングのために、それらの広範な使用は現在制限されています。微分可能性に加えて、これらのモデルパラメータの学習を可能にする2つの主な側面は、MRF最適化アルゴリズムの順方向および逆方向の伝播時間とその推論機能です。この作業では、2つの高速で微分可能なメッセージパッシングアルゴリズム、つまり、反復セミグローバルマッチングリビジョン(ISGMR)と並列ツリー再重み付けメッセージパッシング(TRWP)を紹介します。これらは、大規模な並列処理を利用することでGPU上で大幅に高速化されます。具体的には、ISGMRは、最適化の有効性が向上した一般的なペアワイズMRFの標準SGMの反復および改訂バージョンであり、TRWPは、最適化を高速化するためのシーケンシャルTRW(TRWS)の高度に並列化されたバージョンです。標準ステレオおよびノイズ除去ベンチマークでの実験では、ISGMRおよびTRWPがSGMおよび平均場(MF)よりもはるかに低いエネルギーを達成し、TRWPは最適化の効果を失うことなくTRWSよりも2桁高速であることが示されました。さらに、セマンティックセグメンテーションのエンドツーエンド学習に対するアルゴリズムの有効性を示しました。特に、CUDA実装はPyTorch GPU実装よりもそれぞれ少なくとも7倍および700倍高速であり、メッセージパッシングによる効率的なエンドツーエンド学習を可能にします。
Despite the availability of many Markov Random Field (MRF) optimization algorithms, their widespread usage is currently limited due to imperfect MRF modelling arising from hand-crafted model parameters and the selection of inferior inference algorithm. In addition to differentiability, the two main aspects that enable learning these model parameters are the forward and backward propagation time of the MRF optimization algorithm and its inference capabilities. In this work, we introduce two fast and differentiable message passing algorithms, namely, Iterative Semi-Global Matching Revised (ISGMR) and Parallel Tree-Reweighted Message Passing (TRWP) which are greatly sped up on a GPU by exploiting massive parallelism. Specifically, ISGMR is an iterative and revised version of the standard SGM for general pairwise MRFs with improved optimization effectiveness, and TRWP is a highly parallel version of Sequential TRW (TRWS) for faster optimization. Our experiments on the standard stereo and denoising benchmarks demonstrated that ISGMR and TRWP achieve much lower energies than SGM and Mean-Field (MF), and TRWP is two orders of magnitude faster than TRWS without losing effectiveness in optimization. We further demonstrated the effectiveness of our algorithms on end-to-end learning for semantic segmentation. Notably, our CUDA implementations are at least 7 and 700 times faster than PyTorch GPU implementations for forward and backward propagation respectively, enabling efficient end-to-end learning with message passing.