Similarity of Objects and the Meaning of Words
 データマイニング、パターン認識、学習、および自動セマンティクス抽出に役立つ、圧縮ベースのパラメーターフリーの類似距離測定の新たな領域を調査します。オブジェクトのセット上の距離のファミリーを考えると、セット内の2つのオブジェクト間のファミリー内のすべての距離を指定された精度まで最小化すると、そのファミリーの特定の精度までの距離は普遍的です(指定された精度家族の要素である普遍的な距離)。 2種類のオブジェクトの類似距離を考慮します。それは、ゲノムや本などの意味をすべて含むリテラルオブジェクトと、オブジェクトの名前です。後者は最初のタイプのような文字通りの具体化を持っているかもしれませんが、「赤」や「キリスト教」のような抽象的かもしれません。最初のタイプでは、特定の特徴距離に応じて類似性を表現するパラメーターに対応する計算可能な距離測定のファミリーを考慮します指定されたオブジェクト(の名前)間の特定の意味関係に対応するWebユーザーによって生成されます。両方のファミリに対して、すべての特定の距離測度をファミリに組み込んで、普遍的な類似距離測度を与えます。最初のケースでは、ユニバーサル距離は圧縮に基づいており、2番目のケースでは、検索語に関連するGoogleページ数に基づいています。どちらの場合も、大規模な実験により、アプローチの実行可能性の証拠が得られます。リテラルオブジェクトのペア間。 2番目のタイプでは、類似性を考慮します
We survey the emerging area of compression-based, parameter-free, similarity distance measures useful in data-mining, pattern recognition, learning and automatic semantics extraction. Given a family of distances on a set of objects, a distance is universal up to a certain precision for that family if it minorizes every distance in the family between every two objects in the set, up to the stated precision (we do not require the universal distance to be an element of the family). We consider similarity distances for two types of objects: literal objects that as such contain all of their meaning, like genomes or books, and names for objects. The latter may have literal embodyments like the first type, but may also be abstract like ``red'' or ``christianity.'' For the first type we consider a family of computable distance measures corresponding to parameters expressing similarity according to particular featuresdistances generated by web users corresponding to particular semantic relations between the (names for) the designated objects. For both families we give universal similarity distance measures, incorporating all particular distance measures in the family. In the first case the universal distance is based on compression and in the second case it is based on Google page counts related to search terms. In both cases experiments on a massive scale give evidence of the viability of the approaches. between pairs of literal objects. For the second type we consider similarity
updated: Fri Feb 17 2006 16:15:07 GMT+0000 (UTC)
published: Fri Feb 17 2006 16:15:07 GMT+0000 (UTC)
