DMOZのカテゴリーデータ

Custom Dirで提供されていますディレクトリーサイト開発支援ツールを、ComSearchでカスタマイズして使わせてもらってますが、自分でも、いちから構築しようとやってみました。(現在、作成途中ですが、一度できれば、全自動で自分用に構築できるので。)
ディレクトリー構成は、Custom Dirで採用されている、カテゴリーIDでの階層表現を採用しました、というか、既に、Googleに993カテゴリー分インデックスされていますので、使用せざるをえないので。
それにしても、巨大なファイルです、解凍すると、1.77Gになります。秀丸で開けられません。。


1.content.rdf.u8.gz 283Mをダウンロードし、解凍すると、1.77G
チープなLinuxの自宅サーバで解凍したらディスク容量が足らず、no space。
windows xpのPC上で解凍した。
perlでプログラム。(windows xp上で実行)
1) 日本語階層だけを抽出 40M 120秒 

“DMOZのカテゴリーデータ” への1件の返信

  1. ODPからデータ取得して、企業データをマージ&ソートし、データを再構成するのに、ビジネスディレクトリー
    だけで、合計約1時間かかります。(perlでプログラムしました。)
    http://search.picolix.jp/dmoz/
    全ディレクトリーを再構成するとどれぐらい時間がかかっていまうのだろうか?

コメントは受け付けていません。