Goodpic.com
2003年09月29日

Google検索の透明性と”信用できる”ネットワーク構築

Googleの検索順位、PageRankについては、現状では、なるべく上位に自分のサイトを出したいというSEO(Search Engine Optimization)が主に議論されるが、Page Rankの背後にある、「どのサイトが信頼できるのか」という情報も非常に重要ではないだろうか。
相互リンクやMetaデータなどのSEOテクニックを乱用するスパムサイトに対して、Googleが迅速な対応をしていることがGoogleの信頼性に寄与していることは言うまでも無い。


SEOとの共存を図りながらもスパム行為には厳しく立ち向かうGoogle(impress記事)
Googleはスパム的なSEOを行なっている事業者に対しては厳しく対処している。例えば、特殊な方法を用いて急激に検索結果がランクアップしたサイトに関しては、機械的な方法、人的な方法の双方を用いてチェックを行なう。チェックするスタッフは、米国オフィスのスタッフ(ただし、専任スタッフではない)が目視で行なう。日本語のサイトに関しても、日本人スタッフがチェックをするという。この結果、スパム的だと判断されたサイトは、インデックスから抹消される。ただし現在のところ、この“スパム的”な判断基準に明確なルールがあるわけではない。

CNETのオープンソースの検索エンジンNutchに関する記事では、主にソフトウェアの信頼性=コードの信頼性という文脈から、オープンソースプロジェクトとしてのNutchに注目しているが、Nutchに関しては、コードの信頼性に加えて、インデックスの信頼性=検索先サイトをどのように評価するか、という点も非常に興味深いポイントではないだろうか


Amazonの参入でますます加熱する検索市場(CNET)
Googleは「我々を信用してくれ(Trust us)」というアプローチ、つまりサーチアルゴリズムを公開しないアプローチを取っているが、Nutchはすべてオープン。Linux対Windowsの構図が、Nutch対Google and other search giantsの構図と全く同じだと、この記事は総括する。

ブログはTrackBackや各記事にコメントがつけられる点など、リンクを相互に張りやすい仕組みが面白く、また結果的にSEOにもなって高いPageRankを得るケースが多いのですが、GoogleがBloggerの買収から得たノウハウをどのように検索アルゴリズムに適応しているのかは興味をそそられるポイントです。肝心なPageRankのアルゴリズムは、当然ビジネス的な判断から非公開のままでしょうが、公開するとなるとスパムSEOに対してどのように対策するかも非常に難しい問題になるのではないだろうか。
ブログでも、TrackBackやコメントにスパムが来た、という話が徐々に聞こえてきていますが、今の”つながる楽しさ”をキープしたままどのようにスパム問題に対処していくのかは今後の大きな課題になると思う。FOAFなどのXMLベースのシンジゲーション技術で対応しきれるのか、あるいは何らかのセマンティック(意味的)なコンテンツのPageRankが必要なのか。
MovableTypeでIP制限によるコメント、TrackBackの禁止以外に、PageRank○○以下のサイトからのTrackBackを禁止する、という機能があったらお金を払ってでも使いたいユーザーって結構いるような気もします。
数年前にあるテレビ番組で、中古車オークションを手がけるベンチャー企業の取材のなかで「車の下取り価格が、オークション販売価格より安すぎる場合は査定者にペナルティーとなる」と社長が答えていて感心したことがありました。普通に考えれば安く仕入れて高く売ったほうが儲かるはずですが、「近い将来、ネットなどでの個人売買が必ず大きなマーケットになってくる。その時に適正価格を査定できる、という評価能力こそがこの会社の中核になる」と断言していました。
そう考えると、Googleの競争力は技術力や、何万台クラスターしたインデックスサーバーを持っている、というだけでなく、細かいノウハウが意外に重要なのかもしれません。そういったノウハウに対してオープンソースというコミュニティーがどのようにアプローチできるのか、という視点からNutchを見るのも興味深いのでは無いだろうか。

オープンソースでアルゴリズムを公開する検索エンジン
セマンティックなメール送受信「 RSSがスパム危機を救う?」

PageRankに関しては、NDO weblogさんのこのエントリーのコメントも参考になります。
Powered by MovableType の人気サイトは Google PageRank 5 が多い謎

Posted by jkanekomt at 2003年09月29日 15:56 | trackBack



Comments
Post a comment









Remember personal info?







関連記事