UP

技術について

web上には（限らないですが）類似情報が非常に多く存在します。

それらが完全に同一の情報（テキスト情報、文字列）であれば、その特定は非常に容易ですが、実際には異なる語句、異なる言い回し、異なる表現で類似した意味を表していることが非常に多いです。

しかも、その「意味」、「情報」は、一つの分割できる単位（固体）として、明示的にここからここまででで何らかの事象を記述していると区切られてはいません。任意の「意味」、任意の「情報」が、「どこ」から「どこ」までに存在しているかは事前には不明です。

※ 類似度尺度の定義がどのようなものであっても、本質的問題ではありません。

お互いに充分に類似した個体集合が存在する場合、その集合は、任意の「情報」によって結びついていると思われ、

そこには何らかの「意味」が存在していると予想されます。

※ その「意味」がなんであるかは、システムが知らなくても類似度計算には一切関係ありません。

既存の問題設定ではwebページ、blog エントリなどを単一固体と思って、「固体」間の類似度計算を行うというものです。

この計算量は最大でです

本システムの問題設定では全ての「部分」間の類似度計算を行います。

この計算量は最大でです

Nを小さめに見積もって100～10000 ぐらい、

Dをwebページ総数で、小さめに見積もっても 10000000000 ぐらいです。

このような巨大な問題を高速で解くためのアルゴリズムです。

実際のBlogの文章などのような、　口語的表現、　スラング　、　新語、　文法に反する文字列、顔文字、アスキーアート、など　より汚いデータに対しても意味、情報のアラインメントを行うための技術です。

References