クローラーって興味あるんだよな〜。
技術的なことはあまりわかんないんだけどね。負荷分散を参加型のグリッドコンピューティングとかでやるしくみとできないかな〜。
http://blog.windy.ac/2004/07/post_71.html
それとかbittorrentのような目的を特化したp2pのswarmに分散の役割を果たさせるような・・・こっちはいってみれば人気ファイル分割だけど、その応用として、目的を特化した---人気のある情報リンク構成の分割クロール&再構成とか? そういう場合はそういうアルゴリズムを処理するクライアントソフトだけどね。いや、これはp2pというよりグリッドコンピューティングのアルゴリズムでノードをどう連携させるかってことと同じか〜。そこにbittorrentのようなswarm的なもりあがり,もっといえばhttp://en.wikipedia.org/wiki/Swarm_intelligence(群知能)のようなものが入ってくると未来派的なイメージになるかぁ。
クローラーの動作結果とは次のようなポリシーの遂行によるものらしい:
ちょっと自分で正確に把握してるかどうかはいまいち〜?〜
The behavior of a web crawler is the outcome of a combination of policies: - A selection policy that states which pages to download. - A re-visit policy that states when to check for changes to the pages. - A politeness policy that states how to avoid overloading websites. - A parallelization policy that states how to coordinate distributed web crawlers. © Wikipedia
こっちにもOpen-source crawlersの追加情報:
http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers