クローラーって興味あるんだよな〜。 - アイデアのオープンソース

技術的なことはあまりわかんないんだけどね。負荷分散を参加型のグリッドコンピューティングとかでやるしくみとできないかな〜。

http://blog.windy.ac/2004/07/post_71.html

それとかbittorrentのような目的を特化したp2pのswarmに分散の役割を果たさせるような・・・こっちはいってみれば人気ファイル分割だけど、その応用として、目的を特化した---人気のある情報リンク構成の分割クロール＆再構成とか？　そういう場合はそういうアルゴリズムを処理するクライアントソフトだけどね。いや、これはp2pというよりグリッドコンピューティングのアルゴリズムでノードをどう連携させるかってことと同じか〜。そこにbittorrentのようなswarm的なもりあがり,もっといえばhttp://en.wikipedia.org/wiki/Swarm_intelligence（群知能）のようなものが入ってくると未来派的なイメージになるかぁ。

クローラーの動作結果とは次のようなポリシーの遂行によるものらしい：

ページ選択の policy
再訪の policy
過剰トラフィック防止の policy
複数クローラーの並行処理の policy

ちょっと自分で正確に把握してるかどうかはいまいち〜？〜

The behavior of a web crawler is the outcome of a combination of policies:
 - A selection policy that states which pages to download. 
 - A re-visit policy that states when to check for changes to the pages. 
 - A politeness policy that states how to avoid overloading websites. 
 - A parallelization policy that states how to coordinate distributed web crawlers. 
                                                                  © Wikipedia

こっちにもOpen-source crawlersの追加情報：
http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers