次元削減 (DR) 散布図レイアウトは、多次元データセットを分析するためのユビキタスな視覚化ツールになりました。人気があるにもかかわらず、このような散布図はオクルージョンの問題があり、特に有益なグリフを使用してデータ インスタンスを表すと、実行中の分析の重要な情報がわかりにくくなる可能性があります。この問題に対処するために、さまざまな戦略が考案されています。つまり、興味深いデータ パターンを発見する現代の DR 技術の強力な機能を欠くオーバーラップのないレイアウトを作成するか、後処理戦略としてオーバーラップを排除します。後処理技術の優れた結果にもかかわらず、最良の方法のほとんどは通常、散布図領域を拡大または歪めます。そのため、グリフのサイズが (場合によっては) 判読不能なサイズに縮小され、重複を削除する目的が無効になります。このホワイト ペーパーでは、元のレイアウトの特性を忠実に保持し、最小グリフ サイズを制限する、DR レイアウトからオーバーラップを除去するための新しい後処理戦略であるディスタンス グリッド (DGrid) について説明します。 DGrid は、(複数の異なるメトリックを考慮した広範な比較評価を通じて) オーバーラップの除去において最先端を凌駕し、大規模なデータセットでは 2 桁または 3 桁も高速であることを示しています。
Dimensionality Reduction (DR) scatterplot layouts have become a ubiquitous visualization tool for analyzing multidimensional datasets. Despite their popularity, such scatterplots suffer from occlusion, especially when informative glyphs are used to represent data instances, potentially obfuscating critical information for the analysis under execution. Different strategies have been devised to address this issue, either producing overlap-free layouts which lack the powerful capabilities of contemporary DR techniques in uncovering interesting data patterns or eliminating overlaps as a post-processing strategy. Despite the good results of post-processing techniques, most of the best methods typically expand or distort the scatterplot area, thus reducing glyphs' size (sometimes) to unreadable dimensions, defeating the purpose of removing overlaps. This paper presents Distance Grid (DGrid), a novel post-processing strategy to remove overlaps from DR layouts that faithfully preserves the original layout's characteristics and bounds the minimum glyph sizes. We show that DGrid surpasses the state-of-the-art in overlap removal (through an extensive comparative evaluation considering multiple different metrics) while also being 2 or 3 orders of magnitude faster for large datasets.