arXiv reaDer
ワーキングメモリは、変換表現による階層的ビデオ分解に影響を与えました
Working memory inspired hierarchical video decomposition with transformative representations
ビデオ分解は、コンピュータビジョン、機械学習、医用画像の複雑な背景から動く前景オブジェクトを抽出するために非常に重要です。たとえば、X線冠動脈造影(XCA)の複雑でノイズの多い背景から動くコントラストで満たされた血管を抽出します。ただし、動的な背景、重なり合う不均一な環境、および複雑なノイズによって引き起こされる課題は、ビデオ分解に依然として存在します。これらの問題を解決するために、この研究は、ビデオ分解タスクに柔軟な視覚ワーキングメモリモデルを導入して、視覚および認知神経科学の観点から感覚層と制御層の間の変換表現を統合し、解釈可能で高性能な階層型ディープアーキテクチャを提供する最初の研究です。 。具体的には、構造正則化センサー層として機能する堅牢なPCA展開ネットワークは、XCAをスパース/低ランクの構造化表現に分解して、移動するコントラストで満たされた血管をノイズの多い複雑な背景から分離します。次に、逆投影モジュールを使用したパッチ反復畳み込みLSTMネットワークは、ワーキングメモリ内の制御層の非構造化ランダム表現を具体化し、時空間的に分解された非局所パッチを、不均一な血管検索と干渉抑制のために直交部分空間に反復投影します。このビデオ分解ディープアーキテクチャは、複雑な背景干渉に対して、移動するオブジェクトの強度とジオメトリの不均一なプロファイルを効果的に復元します。実験は、提案された方法が、優れた柔軟性と計算効率を備えた正確な移動コントラストで満たされた血管抽出において、最先端の方法を大幅に上回っていることを示しています。
Video decomposition is very important to extract moving foreground objects from complex backgrounds in computer vision, machine learning, and medical imaging, e.g., extracting moving contrast-filled vessels from the complex and noisy backgrounds of X-ray coronary angiography (XCA). However, the challenges caused by dynamic backgrounds, overlapping heterogeneous environments and complex noises still exist in video decomposition. To solve these problems, this study is the first to introduce a flexible visual working memory model in video decomposition tasks to provide interpretable and high-performance hierarchical deep architecture, integrating the transformative representations between sensory and control layers from the perspective of visual and cognitive neuroscience. Specifically, robust PCA unrolling networks acting as a structure-regularized sensor layer decompose XCA into sparse/low-rank structured representations to separate moving contrast-filled vessels from noisy and complex backgrounds. Then, patch recurrent convolutional LSTM networks with a backprojection module embody unstructured random representations of the control layer in working memory, recurrently projecting spatiotemporally decomposed nonlocal patches into orthogonal subspaces for heterogeneous vessel retrieval and interference suppression. This video decomposition deep architecture effectively restores the heterogeneous profiles of intensity and the geometries of moving objects against the complex background interferences. Experiments show that the proposed method significantly outperforms state-of-the-art methods in accurate moving contrast-filled vessel extraction with excellent flexibility and computational efficiency.
updated: Thu Apr 21 2022 13:49:43 GMT+0000 (UTC)
published: Thu Apr 21 2022 13:49:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト