この前(1/6)search.picolix.jpに、ichiro/1.0なんていうNTTレゾナント社の新BB検索のクローラがきていましたが、今度は、ドリコム社のDrecombot/1.0が1/16に初めて来ていました。
Drecombot/1.0 (http://career.drecom.jp/bot.html)で、求人検索サイトを制作中とのことらしい。
===================
●クローリングについて
検索対象となる求人情報・企業情報を収集するため、テスト版のクローラが各企業様のサイトを巡回しております。
===================
求人情報・企業情報を自動収集するということなので、ビジャスト社運営のドリームエントリー・ジョブサーチに近いもの、あるいはそれ以上のものができあがるのでしょうか?
いつになるか、楽しみです。
新BB検索のクローラ ichiro/1.0
1/6から、ichiro/1.0 (csr001.goo.ne.jp)の見慣れないロボットがきていました。
ichiro/1.0 (ichiro@nttr.co.jp)とログに残っていたので、ichiro@nttr.co.jpに問い合わせたところ回答が帰ってきました。
======================
ichiro は,NTTレゾナント社が開発している,新しい検索サービス用の情報収集システムです.マルチメディア情報の検索も行うため,画像等の収集もさせて頂いています.
先日まで,gazz/5.0 を名乗っておりましたが,運営主体の移動により,ichiro/1.0 に名前を変更させて頂きました.
=======================
技術的な情報は 2月に発表予定らしい。
BLOG OkumuRank ランキング
blogWatcherはblogの収集と、更新の監視、また収集したデータを用いたテキストマイニングを行うツールです。 東京工業大学精密工学研究所の奥村研究室で開発されています。
さて、この検索ツールには、OkumuRank(OR)が付属しています。blogという観点で見た際の重要度が表示され、計算は,被リンク数ベースで行っているとのことで、今回、http://search.picolix.jp/ ,http://sozai.picolix.jp/dmoz/の
ODPのアートカテゴリ、ビジネスカテゴリ、上場企業登録サイトの3つについて OkumuRank API にてOkumuRankを取得しました。結果は、以下のとおり。
一応Googleのページランク(PR)と対比しておきます。
さすが、blogWatcherらしく、アートカテゴリーでは、日記才人がOkumuRank10満点で登場します。プロジェクトXもOkumuRank10です。
ビジネスカテゴリーでは、ソフマップ、ヨドバシカメラがなぜか10です。出版系の講談社、角川ホールディングスも10で登場します。小学館、集英社、早川書房は9です。このあたりもblogWatcher系の書き物系ということで上位にきているのかな?
では、上場企業のTOPはどこでしょう?ヤフーでした。但しOkumuRank10です。
この、blogwatcherのロボットの最初の走査起点はどこなのでしょうか?
また、OkumuRankが付いているサイトの割合は
26%(3,000/11,436) アートカテゴリ
25%(3,906/15,877) ビジネスカテゴリ
30%(1,099/3,641) 上場企業
※ 修正事項 81% -> 30% (1,099/3,641) 上場企業集計が間違っていました。2004/12/28変更
ビジネスカテゴリーリスト
上場企業リスト
10 http://www.vector.co.jp/
10 http://www.yahoo.co.jp/
9 http://www.excite.co.jp/
9 http://www.mcdonalds.co.jp/
9 http://www.broccoli.co.jp/
9 http://www.rakuten.co.jp/
9 http://www.skyperfectv.co.jp/
9 http://www.wowow.co.jp/
9 http://www.iodata.co.jp/
9 http://www.sega.co.jp/
9 http://www.mos.co.jp/
9 http://www.ntv.co.jp/
9 http://www.tv-tokyo.co.jp/
9 http://www.nttdocomo.co.jp/
8 http://www.asahibeer.co.jp/
8 http://www.kirin.co.jp/
8 http://www.lawson.co.jp/
8 http://www.bookoff.co.jp/
8 http://www.falcom.co.jp/
8 http://www.justsystem.co.jp/
8 http://www.fujifilm.co.jp/
8 http://www.toshiba.co.jp/
8 http://www.nec.co.jp/
8 http://www.sharp.co.jp/
8 http://www.planex.co.jp/
8 http://www.saizeriya.co.jp/
8 http://www.ichibanya.co.jp/
8 http://www.ricoh.co.jp/
8 http://www.ozmall.co.jp/
8 http://www.yamaha.co.jp/
8 http://www.bandai.co.jp/
8 http://www.nintendo.co.jp/
8 http://www.family.co.jp/
8 http://www.joshin.co.jp/
8 http://www.dennys.co.jp/dj/index2.htm
8 http://www.laox.co.jp/
8 http://www.eaccess.net/
8 http://www.kddi.com/
8 http://www.gmo.jp/
8 http://www.nttdata.co.jp/
8 http://www.namco.co.jp/
8 http://www.matsuyafoods.co.jp/
8 http://kakaku.com/
8 http://www.plathome.co.jp/
8 http://www.konami.co.jp/
8 http://www.allnightnippon.com/
8 http://www.tokyodisneyresort.co.jp/
ODP 12/21版リリースしました。
DMOZの2004/12/21版データにて、今回は、2サイトともUPDATEしました。
また、上場企業データは、10/13~12/26までの新規上場企業データを登録しました。
アートカテゴリー検索 http://search.picolix.jp/企業検索 ComSearch http://sozai.picolix.jp/dmoz/
最近のIT上場企業
ソフトバンク・テクノロジー(株)(4726) 東証2部へ
(株)システムプロ (2317) 東証2部
エキサイト(株) 3754 JASDAQ
(株)ワイズマン 3752 JASDAQ
blogWatcher Toolbar for IE 「OkumuRank」重要度表示
昨日、http://blog.seis.ne.jp/library/を公開したばかりですが、
すでに、blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/b
logwatcher/)なるクローラーが来ていました。
www.lr.pi.titech.ac.jpを見ますと、blogWatcher Toolbar for IE が公開されており、
「OkumuRank」というBLOGの観点からの重要度ランク表示があります。
http://www.lr.pi.titech.ac.jp/blogwatcher/toolbar.html
ちょっとインストールして、「OkumuRank」を見てみました。
(このtoolbar をインストールするには、.NET Framework バージョン1.1が必要です。)
尚、CGIインターフェースも公開されていますので、こちらでも見ることができます。
書式は、http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=
にURLを続けて打ちます。
RANKの比較をしておきます。
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://www.yahoo.co.jp/
OkumuRank 10 PageRank 8
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://library.xrea.jp/mt/
OkumuRank 2 PageRank 4 (移転前のBLOGサイト)
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=https://www.picolix.jp/blog/
OkumuRank 0 PageRank 0 (移転後のBLOGサイト)
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://search.picolix.jp/
OkumuRank 5 PageRank 3 (普通の検索サイト)
———————————————————–
では、例の「ゴッゴル」のSEOでの上位表示コンテストで、ほぼBLOGサイトが上位
を独占していますが、これらのサイトのOkumuRankはどうなっているでしょうか?
青い空は大嫌いだ水色の空は大好きだ
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://s03.2log.net/home/kensukejan/archives/blog121.html
OkumuRank 5
+Diary+: ゴッゴル
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://blue.rosetea.org/archives/2004/10/aee_5.html
OkumuRank 3
SEO コンテスト – SEO Association
アンカーテキストマッチとアンカーコンテキストマッチ,ではこれは?
アンカーテキストマッチとアンカーコンテキストマッチについてはこちら
http://www.hyperposition.com/ranking/anchorcontext.html
当方、http://sozai.picolix.jp/dmoz/を運営しているのですが、
googleでpicolixで検索したところ、本日(?)からhttp://sozai.picolix.jp/dmoz/
に登録されているサイトが検索結果にちらほら表示されるようになった。
これらのサイトには、picolixというキーワードはひとつもありません。
また、http://sozai.picolix.jp/dmoz/のリンクページから、
アンカーテキストマッチやアンカーコンテキストマッチによって登録サイトへ
リンクしているわけでもありません。
ただURL(http://sozai.picolix.jp/dmoz/)にpicolixというワードがあるだけです。
こういうのは、なんというのでしょうか?
—————————–
2004/12/16現在1000件ほど検索にヒットします
キーワード
picolix -site:picolix.jp -inurl:picolix -intitle:picolix -picolix.com -picolix.jp -dip.picolix -www.picolix
国会図書館:ネット情報を収集保存へ
ネット情報を収集保存へ 国会図書館、06年度にも
国立国会図書館は9日、同館が収集・保存している著作物の対象を、インターネット上に公開されたホームページ(HP)にも広げると発表した。
ドメインの末尾が「.jp」になっているHPを自動的に複製、同館のコンピューターに保存する。
[共同通信社]
WEBページ保存といえば、http://www.archive.orgですが、国立国会図書館は、
.jpから収集するようです。日本版限定のアーカイバーになるか?
ちなみに現在は、WARP(ウェブ・アーカイビィング・プロジェクト)ですが、対象は、公的機関などが主です。
GMT 1969/12/31 23:59:59
とあるホームページが表示されないので、Googleのキャッシュ表示を利用したのですが、
キャッシュ日付けが、GMT 1969/12/31 23:59:59になってました。
UNIX時間なら、1970/1/1 00:00:00が起点だけど、どうして1秒前なんでしょうか?
ちなみに、日本最初のホームページは、
1992/9/30で、http://www.ibarakiken.gr.jp/www/です。
管理人Library最初のホームページは、1998/1/8です。
まあ↑でもYahoo Japanに登録されていました。現在は、www.picolix.jpに引き継いでいます。
アメリカ最初のホームページ、残念ながら不明です。
url2bmpで10,000サイトのWEBサムネイル画像GET!
url2bmpを使って、アートカテゴリー(http://sozai.picolix.jp/dmoz/)の登録サイト10,000のトップページのサムネイル画像を12時間かかって取得しました。。
当初は、thumbshots.orgを使っていたのですが、相手サーバが過負荷状態だとなかなかデータを取得できず、ページを表示するのにロック状態となってしまっていました。
ということで、自分でサムネイル画像を保存しておくしかないということで、ちょうどurl2bmpを見つけました。url2bmpはコマンドラインから実行できるので、perlでスクリプトを組んでみたのですが、時々
JAVASCRIPTエラーしたページがあるとそこでロック状態となってしまい次に進めません。
そこで、vcでスレッドを作って、そこからCreateProcessで、url2bmpを呼び出し、1分のタイムアウト
処理で、url2bmpをスレッドごと強制終了させるようにした。
->で、流すこと12時間10、000サイトの画像が取得できた。
で、結果はご覧のとおりです。http://sozai.picolix.jp/dmoz/77596/902594/1127321/
※ url2bmpは、アクセス先にポップアップウィンドウがあると、別窓で表示します。
したがって、10,000サイトもアクセスすると、画面がポップアップウィンドウやら認証ページやら
JAVASCRPITの入力ウィンドウで埋め尽くされます。(笑う)
こういう場合は、kill iexplore でばっさり落とします。
url2bmpでは、画像を1対1のサイズで保存する時は、右のスクロールバーを保存なしに
できるのですが、それ以外だと、右のスクロールバーなし設定にもかかわらず表示されてしみます。(バグ?)
しょうがないので、800×600をそのまま保存して、ShukuSen.exeにて120×90に縮小しました。
ShukuSen.exeもコマンドラインにて動作できるので、これもスクリプトに組み入れました。
英国版SEOコンテストのゴッゴル
”無コムのブログ”さんのところで、海外サイト
http://www.salmonbones.co.uk/でゴッゴルがサインされているのが紹介されていました。、
ソースをみると、charset=windows-1252ですが、UNICODE(utf-8)で&#で記述されています。
なるほど、多言語を少し混ぜこぜに散りばめたいときはそうするのか。。
ゴッゴルは10進表記で、
ゴッゴル
16進表記で、
ゴッゴルとなります。
ついでに、管理人作の文字コード表示ツール紹介しておきます。
http://dip.picolix.jp/disp.html#winjis
さて、前回、ゴッゴルを書いてみましたが、検索順位はさっぱりでした、200~300位
ぐらいで今は、どこにあるかさえ分かりません。