ndl-japan-research-robot-1.1

ndl-japan-research-robot-1.1 http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html
デジタルアーカイブのための日本のウェブサイトの実態調査用のロボットで、せっせとjpドメインのWEBサイトデータを収集しているようです。

Drecombot/1.0

この前(1/6)search.picolix.jpに、ichiro/1.0なんていうNTTレゾナント社の新BB検索のクローラがきていましたが、今度は、ドリコム社のDrecombot/1.0が1/16に初めて来ていました。
Drecombot/1.0 (http://career.drecom.jp/bot.html)で、求人検索サイトを制作中とのことらしい。
===================
●クローリングについて
検索対象となる求人情報・企業情報を収集するため、テスト版のクローラが各企業様のサイトを巡回しております。
===================
求人情報・企業情報を自動収集するということなので、ビジャスト社運営のドリームエントリー・ジョブサーチに近いもの、あるいはそれ以上のものができあがるのでしょうか?
いつになるか、楽しみです。

Oracle 10g データベース

仕事で、oracle8iからOracle 10gにシステムを移行することになりました。
特にoracle8iでも性能上今のままでも問題ないのですが、サーバがリース切れのため
サーバを最新にするということで、ついでにLinuxのOSも最新にすることになった。
ということで、必然的に、Oracleも最新にすることになった。


OSはLinux系で、oracle8iをインストール&設定した時は、だいぶ四苦八苦
した記憶があり、Oracle 10gかあ~と思いながらもインストールしました。
OSはMiracle Linux 3.0です。
oranviでインストールしたのですが、何事もなくあっけなくインストール&動作しました。
一番気になっていた、perlからのoracle dbへのアクセスですが、
DBI-1.42.tar.gz、DBD-Oracle-1.16.tar.gzで問題なくoracle 10gにアクセスできました。

Postgres データベース

[Postgres 7.4.6]
7.3以降では、initdbコマンド実行時に、initdb –encoding=EUC_JP –no-locale
のように–no-localeを付けて作成しないと、日本語のソート処理、検索に不具合が発生します。


当初、initdb –encoding=EUC_JPで作って作成していたため、一部の検索がおかしかった。
(http://search.picolix.jpの業種選択でおかしなことになっていた。)
DBを再作成してOKとなりました。
尚、–no-localeを付けるのと付けないのでは、postgresql.conf中のlc_関連が下記のようになる。
これらを書き換えてcreatedbしたものは、OKですが、すでに、createdbしたものは、再作成が必要です。
–no-localeがない時
lc_messages = ‘en_US.UTF-8’
lc_monetary = ‘en_US.UTF-8’
lc_numeric = ‘en_US.UTF-8’
lc_time = ‘en_US.UTF-8’
–no-localeがある時
lc_messages = ‘C’
lc_monetary = ‘C’
lc_numeric = ‘C’
lc_time = ‘C’
[再作成手順]
#
postgresユーザでデータベースのダンプをとる。
$pg_dump lisa -u > lisa.dmp
postgresを停止させる。
#/etc/init.d/postgresql stop
データベースのディレクトリーをdata-oldにする。
(再作成に失敗した時に、data-oldをdataに戻せばいつでも復旧できます。)
$cd /usr/local/pgsql/
$mv data data-old
–encoding=EUC_JP –no-localeオプションを付けて再作成
$initdb –encoding=EUC_JP –no-locale
データべース、ユーザの作成
$createdb lisa
$createuser lisa
$psql lisa
認証は、MD5にて行うので、encryptedを付けてパスワードを作成する。
>ALTER USER postgres encrypted password ‘xxxxxxx’;
>ALTER USER lisa encrypted password ‘xxxxxxx’;
>q
ダンプしたデータのインポート
$psql lisa -U lisa < lisa.dmp
以上、メモでした。

GMAILのアカウント頂きました。

検索エンジン三国志さんより、GMAILのアカウント頂きました。さて、アカウント作成して何に使うか検討中です。
企画道場:Gmailの使い方 ~自分メモが参考になります。
メーリングリスト、メルマガなどのメールは全て、GMAILにメールしようかと思っています。


GMAILは容量が1Gありますが、会社のある人は、10年間の送受信メールデータを保存している人がいてメールデータが300Mバイトぐらいになってます。
この人に、5年前ぐらいに自分が出した、これこれの内容のメール残ってますか?とか、ずいぶん昔、こういう内容のメールがあったんだけどと尋ねると、返信でその時のメールを頂けます。(検索エンジン真っ青ですね。。)
さて、GMAILは、通常のメーラでもPOPS,SMTPSが使えるものなら、メールを読み書きできます。POPS,SMTPSはPOP/SMTP over SSLで、SSLで暗号化されています。
当方、SMAIL(コマンドライン送信専用メーラ)を作っているのですが、SMTP over SSLに対応改造したく検討中なのですが、ちょうどGMAILのサーバがデバッグ用にもなってラッキーかなとも思っているのですが、
肝心のSMTP over SSLのプロトコルがどういうものか詳細がわからないのです。(泣く)unixのsendmailはSMTP over SSLをサポートしているので、ソースを参考にするしかないかな??

アウンコンサルティング

1/12の日刊工業新聞に、SEO最適化の会社でメジャーなアウンコンサルティングの記事がありました。
======================
2007年5月期に売上高を2005/5月期見込みの4倍に当たる60億円、売上高経常利益10%の確保を目指す。また業務拡大に伴い、中途採用から新規採用中心へとシフトする。
全社員150-200人体制に拡充予定。
SEO,P4Pでのサイト最適化のコンサルティングが大手企業を中心に受注が増加している。
======================
[日刊工業新聞より抜粋]
日刊工業新聞にSEO,SEM関連で載るのは、ちょっとめずらしいかな?
一般の読者だと、アウンコンサルティング(?)、SEO(?)、P4P(?)ってとこでしょうか?それにしても繁盛しているようです。

Adobe Reader 7.0

========================================
米Adobe Systemsは22日、無償PDF閲覧ソフト「Adobe Reader 7.0」のダウンロード配布を開始した。日本語版のほか、英語版、フランス語版、ドイツ語版などを同社Webサイト上から無料ダウンロードできる。
 Adobe Reader 7.0は、PDF閲覧ソフト「Adobe Reader」の最新版。起動時間が短縮されたほか、Web上のPDFファイルを検索する機能において、従来のGoogleに代えてYahoo!のサーチエンジンを採用した。また、3Dオブジェクトを表示できるなどの機能強化が図られている。
 なお、Adobe Reader 7.0の日本語サイトからのダウンロードは、当初の開始予定日である12月中旬から2005年1月中旬に延期するとしている。
Adobe Reader 7.0ダウンロードサイト(英文)
  http://www.adobe.com/products/acrobat/readermain.html
==========================================
前バージョンは、IEからの起動にやたらプラグインをロードしまくり遅かったですがだいぶ改善されはやくなってます。

新BB検索のクローラ ichiro/1.0

1/6から、ichiro/1.0 (csr001.goo.ne.jp)の見慣れないロボットがきていました。
ichiro/1.0 (ichiro@nttr.co.jp)とログに残っていたので、ichiro@nttr.co.jpに問い合わせたところ回答が帰ってきました。
======================
ichiro は,NTTレゾナント社が開発している,新しい検索サービス用の情報収集システムです.マルチメディア情報の検索も行うため,画像等の収集もさせて頂いています.
先日まで,gazz/5.0 を名乗っておりましたが,運営主体の移動により,ichiro/1.0 に名前を変更させて頂きました.
=======================
技術的な情報は 2月に発表予定らしい。