GoogleバックリンクUPDATE

ついさっき、GoogleディレクトリーUPDATEを書いたところですが、
バックリンクもUPDATEしたみたいです。
但し、ページランクの更新なし。いよいよバックリンクとページランクは非同期になったみたい。
バックリンクも前回同様、PRの低いリンクが表示されており高PRのリンクは、隠されています。

GoogleディレクトリーUPDATE

GoogleディレクトリーUPDATE
Googleのディレクトリー用のページランク表示もUPDATE
World > Japanese > コンピュータ > ソフトウェア > インターネット > サーバー
www.picolix.jpは、16/40(PR5換算)から22/40(PR5換算)になりました。
prlevel1.gif


前回の更新では、バックリンクが更新されていますが、ページランクは見た目更新(Google toolbar)されていません。
また、バックリンクについても、ページランクがPR0~PR3のページが表示されています。
PR4以上が表示されず、逆ソートで表示しているような感じです。
こんな表示に意味があるのかどうか?Googleのいやがらせでしょうか?
ページランクも、CH値を算出するアルゴリズムが流出し、それによりページランクを
Googleから取得できるようになりましたが、これの影響なのか、バックリンクが更新された
にもかかわらず、ページランクは見た目更新されず非同期になっています。
次回の更新で、この2点がどうなるか。

yahooのクローラー:Yahoo! DE Slurp

yahooのクローラー:Yahoo! DE Slurp
7/20ぐらいから、yahooのクローラーYahoo! Slurpに加えて、
Yahoo! DE Slurpなるクローラーがセットで毎日くるようになりました。
ただし、Yahoo! DE Slurpは、トップディレクトリーのみGETしているようでかつ、
Yahooの登録サイトのみ対象にしているように思われます。
             Yahoo! Slurp Yahoo! DE Slurp Yahoo! Japan登録
www.picolix.jp        ○         ○       ○  (ほぼ毎日)
sozai.picolix.jp       ○         ○       ○ (ほぼ毎日)
dip.picolix.jp        ○         ×       ×
search.picolix.jp      ○         ×       ×
library.xrea.jp        ○         ×       ×
管理サイト1.co.jp       ○         ○       ○ (ほぼ毎日)
管理サイト2.co.jp      ○         ○       ○ (4日に1回)
何の目的のクローラーか現在不明です。
LOGを調べてみたところ、7/16ぐらいに変更になったようです。
15:dj5000.inktomisearch.com – – [15/Jul/2004:05:29:07 +0900] “GET / HTTP/1.0
” 304 – “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/he
lp/us/ysearch/slurp)”
17:dj5000.inktomisearch.com – – [17/Jul/2004:05:18:27 +0900] “GET / HTTP/1.0
” 200 17953 “-” “Mozilla/5.0 (compatible; Yahoo! DE Slurp; http://help.yahoo
.com/help/us/ysearch/slurp)”

yahooのクローラー:Yahoo! DE Slurp

いつも、来ているyahooのクローラーは、Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
ですが、Yahoo! Japanの登録サイト(2サイト)には、dj5000.inktomisearch.com – – [19/Jul/2004:05:03:54 +0900] “GET / HTTP/1.0” 200 20301 “-” “Mozilla/5.0 (compatible; Yahoo! DE Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
なのが来ていました。
4689 ヤフー関連企業
 http://search.picolix.jp/search/4689.html

韓国TV局SBS,KBSのディレクトリー検索

http://find.sbs.co.kr/../../…
http://find.kbs.co.kr/../../…
から、一番昔(1998/1ぐらい)に作ったサイトがリンクされていました。
調べてみると、”日本のウェブ”からカテゴリーをたどっていくと(ハングル語はまったくわからないので、NAVERでWEB翻訳)どうやら、過去にYahoo! Japanに登録していたサイト
http://web.kyoto-inet.or.jp/people/sho200/でした。
Yahoo! Japanのカテゴリーデータを利用しているみたいですが、データがどうも古いです。1年以上前だと思われます。
SBS,KBSとも同じ日本のWEBディレクトリーですが、どこが配信しているのでしょうか?

サイバーエージェント(東京マザーズ)ディレクトリ型コンテンツサイト WebVision

インターネット広告事業や金融サービスなどを提供する株式会社サイバーエージェントは12日、ディレクトリ型のコンテンツサイト「WebVision」をスタートした事を発表した。
[SEM/SEOニュース]
人生をより豊かに過ごすためのディレクトリ型コンテンツサイト
『WebVision』 http://www.webvision.jp/.をオープン
2004.7.12 pdf
なんか、All About Japanのサイトポリシーに似ているなと思ったらそうらしい。
[SEM/SEOニュース]
カテゴリーから、自分の見たいジャンルの記事をたどっていくのですが、検索機能が
ないので、途中であきらめてしまいます。(みつからない?)
——————————————–
4751 サイバーエージェント
 http://search.picolix.jp/search/4751.html

PageRankとWEBRANKの分布図

prwr.gif
企業情報検索エンジンComSearchのDMOZ(オープンディレクトリー)の
ビジネスディレクトリ登録サイト14、201サイトのgoogleの
ページランクとyahoo!のウェブランクの分布図です。
といっても何も役に立ちませんが、せっかく取得しDBに入れたのでグラフにしておきました。
MSNやIBMのような次世代検索が出てきたら、PageRankさらにWEBRANKさせ過去のものとなって
いくと思われますが、まあ記念にグラフ化しておきます。
さて、企業情報検索エンジンComSearchは、企業のURLと財務データへのリンク検索を一番
の目的としています。さらに、Custom Dirを改造して
使わせて頂いています。最初は自分用に企業リサーチのためのひとつのツールとして
作成したのですが結構いい感じなので公開しました。(と本人が思っているだけかも
しれませんが。)
http://search.picolix.jp/dmoz/index.php?s_keyword_in=yahoo
http://search.picolix.jp/search/?s_keyword_in=yahoo

検索結果にPageRank,WEBRANK実装しました。

先日、ch値算出プログラムがリークしたようですが、とりあえず、動かしてみました。。
企業情報検索エンジンComSearchの企業検索結果に表示するようにしました。
ただし、リアルタイムでPR値を毎回取得する方法はとってません。
前もって登録サイトのPR値をDBに格納しました。
また、Yahoo!のWEBRANKもプログラムで取得しました、こちらは、まだ全件取得
できてません。
Yahoo!のWEBRANKは、ch値みたいなマジックナンバーはありませんので、素直に取得
できるのですが、以下の制限がかかっているようです。
・POST問い合わせのパラメータの順番を場合により入れ替える必要がある。
・1IPアドレスから連続で取得できるのは300~500件でそれ以後、
 1時間~3時間ぐらいはYahoo!から無応答となります。
企業情報検索エンジンComSearch
http://search.picolix.jp/search.php?s_keyword_in=%BE%F0%CA%F3&dmoz=1
http://search.picolix.jp/search.php?s_keyword_in=%BE%F0%CA%F3&search=1


その他、PHPメモ:
 mberegi_replace()関数で、Warning: mberegi_replace(): mbregex compile err: premature end of regular expression
 のエラーが出るので、mberegi_replace()に置き換えた。またmb_ereg_replace(“株式会社”, “(株)”, $company_name, “p”);
 のように、POSIXオプションを指定した。

IBM 、Webfountain の公開間近か?

これまた、_Crawl::…さんのところからのです。
あるトピックに最もマッチするページを見つけるのが検索だとすれば、トレンドを見つけるのがWebFountainだ」とIBMのAlmaden Research Centerで同プロジェクトのチーフアーキテクト
を務めるDan Gruhlはいう。Almaden Research Centerは米カリフォルニア州サウスサンノゼにある同社の研究所だ。[Cnet Japan]
IBM 、Webfountain は私も時々ウォッチしているのですが、次世代の検索を目指しており、
意味と文脈を探るデータマイニングサービスの実現へ向けてIBMが研究中です。
また、これに関連する(?)IBMのクローラーcrawler@us.ibm.com
http://www.almaden.ibm.com/cs/crawler が時々細々と、管理サイトにやってきています。

PageRank解析アリゴリズム流出。

_Crawl::… さんが、PageRank解析ツールが流出しているのを見つけました。
http://nagi2u.blogtribe.org/category-ea36463bdd7093cafdd5eed7670a14f9.html
試してみたところどうやら本物のようです。
生成されたch値にて、当管理サイトに適用したところ正常に、Rank_1:1:5 を
返してきました。
これで、一般にも知れ渡ったことになり、Googleではどうするでしょうか?
このch値は時々、更新されます。しかしながら更新前のch値でも同様のレポート
が返ります。
[追加情報]アセンブラリストが公開されています。http://www.mobileread.com/forums/showthread.php?s=de352bea6fa3df288ea54f0d6d582280&t=1670
Google’s Toolbar 2.0.111のDLLを逆アセンブルして解析したみたいです。