「検索エンジン考」 – 日YST変動の予兆?で、
——-
6/18にYahoo Japanの検索結果で表示される総インデックス数が、米国Yahooに近いものに変更されているとのことで、Yahoo Japanでの検索順位結果は、現時点で特に順位に変動は無いが、
”次回YST変動の本命は6月22日である。”とされています。
また、日本においては独自部分(検索アルゴリズム)の米YSTへの吸収を意味するものかもしれない。
——-
というコメントが上がっていました。
さて、キーワード「タータンチェック]で総件数を少し調べてみると。
Yahoo.co.jp 152,000件 Yahoo.com 159,000件 で言われるように下3桁が0になっています。
で、Yahoo.co.jpにおいて当管理サイト sozai.picolix.jpは、1位なのですが、Yahoo.com では、11位となっています。
いつも、Yahoo.co.jpの変動直後は、Yahoo.comと同じぐらいの検索順位の10位前後に落とされて、徐徐に、2,3週間かけて、1位に復活します。
sozai.picolix.jpは、Yahoo Japanのカテゴリーに登録されているので、そのためなんらかの加点があると思っています。
この辺りのYahoo.co.jp独自の加点(?)機能はどうなるでしょう?なくなってしまうのでしょうか?
Google PageRankが表示されない。
5/28ぐらいから、Googleのページランクが表示されなくなっています。
以前、ページランクを取得するために必要なch値の算出アルゴリズムが暴露(2004年05月?)され,
あちこちで、ページランク表示ツールサイトが立ちましたが、ついに、Googleは、ページランクの表示サービスを終了させるのでしょうか?
かくいう当方も、企業検索サイト、search.picolix.jpでGoogle PageRankの値を利用して表示順に重宝していたのですが。。
http://search.picolix.jp/dmoz/index.php?s_keyword_in=it
これからは、違う指標を探さないと。
blogWatcher Toolbarの「OkumuRank」に移行しようか思案しています。
http://www.lr.pi.titech.ac.jp/blogwatcher/toolbar.html
ComSearch UPDATE
ComSearch インフォデータをUPDATEしました。
・3/1~4/28分 大証、東証、JASDAQ 49件追加・更新
[一部抜粋]
2440 (株)ぐるなび http://search.picolix.jp/search/2440.html
8703 カブドットコム証券(株) http://search.picolix.jp/search/8703.html
3764 (株)アッカ・ネットワークス http://search.picolix.jp/search/3764.html
今回、DMOZカテゴリーのデータはUPDATEしていません。本家DMOZのrdfデータがなぜか、2005/2/25より更新されておりません。それ以前はたしか1カ月または数週間単位で更新されていたのですが、どうなったのかな?
google ページランク更新
4/22にGoogleのページランクが更新されたようです。
ComSearchに登録している、上場企業のページランク平均値は、以下のとおりです。
更新日付 PR 総数
-----+--+--
2005/04/22 3.72 3,662
2005/03/08 3.74 3,660
2005/01/02 3.75 3,641
2004/10/12 3.79 3,583
2004/08/12 3.85 3,559
ずっと、ページランクは下げ傾向にあります。
PR8以上のサイトは、
4689 http://www.yahoo.co.jp/
6501 http://www.hitachi.co.jp/index-j.html
6701 http://www.nec.co.jp/
の3サイトしかありません。PR7のサイトでは、52サイトで以外と少ないです。
会社のサイトはPR4->PR5、管理サイトwww.picolix.jpもPR4->PR5に復活しました。
PR値は甘くなったのではと思ったのですが、そうではないようです。
企業検索ComSearch
企業検索ComSearchをリリースさせて頂いていますが、最近はsearch.picolix.jpにて検索して頂くユーザが増えありがたいことなのですが、いかんせんデータ量が2万件ぐらいしかなく、検索ヒットが0件ということが多々あり申し訳ないので、0件の場合は、Googleの検索を10件表示するようにしました。
google web API sを利用しています。Googleカテゴリーに属している場合は、そのカテゴリーも表示します。
Google – 動的に変化するタイトルタグ
SEM リサーチさんのところで紹介されていました。
Google – 動的に変化するタイトルタグ
Googleは次の条件に合致した場合に、SERPs(検索結果)上の見出し文字列を変更しています。それは「もし検索キーワードにヒットしたURLがODP(DMOZ)に掲載されており、かつその検索キーワードがODPのタイトル文字列と完全一致した場合はそれを見出しとして表示する」とのことです。
[SEMリサーチ] ( )内は、当方補足です。
では、さっそく実験してみましょう。当方のメインサイト、www.picolix.jpは、
タイトルは:”フリーソフトとネットワーク構成図公開 by Eva”です。
ODPでの記載タイトルは:”Dip.PicoLixピコリックス”です。
1) 「ネットワーク構成」 で検索 1/90,700
タイトルは:”フリーソフトとネットワーク構成図公開 by Eva” です。
2) 「dip」で検索 4/12,200,000
タイトルは:ほんとだ! ”Dip.PicoLixピコリックス”になってる!
こんな変換なんか意味があるのだろうか?定番サイトなら意味があるかもしれませんが、当方のようなサイトではまったく意味がないような?
このODPのタイトルは、SEOを知る以前につけたタイトルでSEOを全然意識していないお間抜けなタイトルとなってしまっています。(泣く)
dipという単語が、1200万中4位となっているのですが、普段は全然このdipという単語での検索でこられるユーザは皆無なのですが、時々、日本のバンド「dip」がなにかプレス発表すると、このキーワードでのアクセスが断然増えます。(ニアミスです。。)
ドリコムキャリア:求人情報に特化した検索エンジン
ドリコムキャリアは求人情報に特化した検索サイトです。
ロボットプログラムにより、インターネット上の求人情報や企業情報を自動で巡回・収集しています。
収集された情報は、職種や勤務地、フリーキーワードで検索することができます。[ドリコムキャリアホームページより]
同様なコンセプトで以前から、 株式会社ビジャストのジョブサーチがあります。
ドリコムキャリアの登録数は、現在55,826件
ジョブサーチの登録数は、現在53,324 件
とほぼ同様です。ちなみに自分の会社を検索して見ましたが、ヒットしませんでした、親会社の
会社名だと、ドリコムキャリアは2件、ジョブサーチは1件ヒットします。いずれも正しく該当企業の募集ページにリンクしてくれる優れものです。あとはロボットでデータをどれだけ多く、正しく収集できるかに、かかってくると思います。
サーチエンジン「SUZAKU(朱雀)」
Linuxのサーバー上で稼動するフリーのサーチエンジン「SUZAKU(朱雀)」バージョン2が公開されました。
1. SUZAKUとは
SUZAKU(朱雀) は、インターネット/イントラネットを対象にした、フリーの
ロボット型サーチエンジンです。
SUZAKU には、以下のような特徴があります。
・MySQL、Ruby、erubyなどのフリーソフトをベースにしたシステムです。
・SUZAKU は、以下の機能がワンセットになっています。
・ホームページのリンクを自動的に探索し、ダウンロード&インデックス化
する機能
・キーワードに該当するホームページを検索する機能
・ブラウザによるシステムの管理機能
・ホームページのリンクの探索を、指定された同一サイト内に限定する機能
があります。これにより、特定ジャンルのホームページ群を対象とした、
独自のサーチエンジンを構築することができます。
・プラットフォームには、LinuxベースのPCサーバーを想定しています。高速
検索が可能な MySQL をデータベースに使用しており、中小規模のサーチ
エンジンであれば、十分に実用的なシステムを構築することができます。
例えば、ADSL + PCサーバー(Linux) + SUZAKU を使って、独自のサーチ
エンジンを自前のサーバー上に構築し、外部に公開することができます。
・ホームページのダウンロード&インデックス化の処理を実行中でも、
キーワードによる検索を行うことができます。
・ダウンロード先のサーバーを分散し、相手のサーバーに過度の負荷をかけ
ないようにする機能や、robots.txt による探索制限に従う機能を実装して
います。
・プログラム本体は、Ruby および eruby で記述されており、ソースは公開
されています。スクリプト言語による比較的コンパクトなシステムであり、
改造も容易です。[linux-usersメーリングリストより。]
以前のバージョンを少し動かしたことがあるのですが、サイトデータ収集ロボットに
少し難があったので導入をあきらめていたのですが、今回久々にバージョンアップされたので再度検討してみようかと。。
ウィキペディア辞書検索情報サイト
ウィキペディア辞書検索情報サイトMemoMsg立てました。
フリー百科事典『ウィキペディア(Wikipedia)』のデータ約10万語をmysqlデータベースに入れ、キーワードタイトル検索できるようにしました。
詳細内容は、wiki->html変換し10万ページ作成しました。(ベータ版)
(はたして、Googleに全てindexされるでしょうか?)
肝心の検索スピードは、部分検索で、0.5秒程度で検索できるので、サーバスペックから考えてまずまずです。
ちなみにpostgresにもデータを入れて比較してみましたが、。mysqlの方が格段に早いと思っていたのですが、ほとんど検索スピードは変わりませんでした。Oracleだと早いだろうか?
ndl-japan-research-robot-1.1
ndl-japan-research-robot-1.1 http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html
デジタルアーカイブのための日本のウェブサイトの実態調査用のロボットで、せっせとjpドメインのWEBサイトデータを収集しているようです。