こっちは検索エンジンと絡めたセマンティックな自然言語モデル関連。*2

 もうひとつ貴社に興味をもった点としましては貴社の出発点として、(携帯関連の)検索エンジンに関するデモがきっかけとなった点、SNSにおける検索ツールの可能性についてもCNETBLOGでのインタビューに言及されている点など、検索エンジンへのエンファサイズがある点です。
 以下は思考実験的な側面もあるので、若干割り引いてみていただいても結構です。

 検索サービスは今後のセマンティクス展開と非常に密接な関係(マクロ的構想ではOWL、ミクロ的にはマイクロフォーマッツ等)にあり、RDF主体のスタティックなサイト定義から動的なオントロジー推論まで、様々なフェーズでの展開が予期されます。これらはウェブの仕様面でのセマンティックス適用へのアプローチですが、他方で、自然言語テキストの形態素解析/構文解析における統計論的なアプローチ(共分散構造/ベイズ推論)の適用も進んできています。
 必ずしも言語方面のアカデミックでない私が言うのは気が引けるところもありますが、私は自然言語の動的(動因)モデルと統計論的なアプローチを結びつけることが今後の自然言語処理のヒントになるのではないかと見ております。チョムスキーのGenerative grammarではないですが、メタレベルの普遍文法構造を仮構します。ここでの文法要素は先にテキストを前提とするのではなく、物理的(時空的および可知覚的な諸相)な行為連鎖モデルを置きます。「状態」「駆動・動因」「結果」等の物理的位相を、自然言語という格納/表現装置をつかってシミュレート/相互作用する動的な認知主体モデルそのものを仮構します。
 これは認知言語学に隣接したLeonard TalmyのForce Dynamics論に共通したものがありますが、そこにおける自然言語に対するメタレベルのダイナミクスを逐次的にモデル化しようとするアプローチとは異なり、はじめから動的な行為・認知モデルを自然言語から切り離してモデル化し、仮構された動的モデルを近似的・統計的にインスタンスとしての自然言語に格納(というより可変的に同期)しようとするアプローチです。原始的には近年(汎用ではなく応用)AIの分野で成果をあげているパターン認識/学習と重なるもので、かなり原始的な有向動的モデル(RDFの述部の有向ラベルではないですが)から出発することも前提として見ています。
 ポイントは、(その単純性のレベルに関係なく)言語エレメントは構造化に向けた有向性を持ち(例えば言語エレメントの組み合わせもインスタンスとなり、有向性のある状態フェーズとして属性となる等)、構造化推論(ここに統計的な手法が関係)がモデルに組み込まれている----従ってスタティックな言語ではなく発展的アルゴリズムをもったプログラムでもある言語のようなものでもあるということです。そしてもうひとつ、目的となる構造状態は、現実の実体にモデルを持つというところです。目的としての構造状態への有向性を前提とするため、セマンティックな解が間違っていようとも構造の暴走や無限ループなどへの構造的耐性が、理想的にはあるものを仮定します。
 さて、このようなメタ言語のモデル(といってもきわめて中途半端な説明で恐縮ですが)が単なるお遊びの思考実験ではなく(他の言語モデルと比べて)有効な発展性や適用性があるかどうか、とりわけ検索エンジンセマンティックウェブにおけるそれがあるかですが・・・・私は、希望的には、このモデルがまだ試されたことがなく(?)、また、複雑な自然言語の諸事象からいったん切り離されているために、かなり原始的なモデルから始められるという点で、検証するにはなかなか面白いものがあると見ております。

だんだんマッドサイエンティスト風になってきてエグイ(古語)ですねぇ。やばくてイイ感じです。。。(?)
さて、「トピックマップ」というアプローチがあるらしい。
http://www.ontopia.net/topicmaps/what.html
http://www.ontopia.net/topicmaps/materials/tao.html
http://www.net.intap.or.jp/INTAP/s-web/data/TR/TM-RDF.htm
http://hotwired.goo.ne.jp/news/technology/story/20041202303.html

〜引用〜
Topic maps have a concept of occurrences, which are pieces of information relevant to a topic. Occurrences can either be resources external to the topic map, which are then represented by the URI of the resource, or they can be strings internal to the topic map.
http://www.ontopia.net/topicmaps/materials/tmrdfoildaml.htmlから

オントロジー表現記法からのアプローチだが、どうもリアルな事象発生(やそのポテンシャル)をインスタンス的にとらえて(格納する枠組みを置いて)いる点では同じっぽいな。すでにこういう考え方があったのね。ちょっと勉強してみましょう。