Goodpic.com
2003年10月29日

Amazonの全文検索 書籍の内容をメタデータ利用する発想の大転換

190の出版社、12万冊、約3300万ページ以上の書籍を全文検索。まずそのスケールが衝撃的、実際に検索してみて、その”新しい感覚”に驚愕のAmazonの新サービス”Search Inside the Books”ですが、もっとも驚くべきはサービスの根底にある発想の大転換ではないだろうか。「書籍の内容をまるまるスキャンするが、コンテンツとして使うのではなく、検索のためのメタデータとしてのみ活用する」というアイデアは、実は考えそうで、思いつかない(少なくとも誰も実行していない)でしょう。
確かに「ネットは、コンテンツ(書籍)そのものを配信するインフラではなく、実際に本を手にするための最高の検索インフラにする」という面から考えると、Amazonのビジネスとしては当然の原則ではあるだろうが、3300万ページを手作業(!)でスキャン&解析するという多大な投資をしてもなお、その原則に忠実であるところにジェフ・ベゾスの素晴らしいビジネスセンスを感じます。
この点についてはWIRED Newsのインタビューで開発者のManber氏が繰り返し強調しています。


The Great Library of Amazonia (WIRED News)
"This is not an ebook project!" Manber says. And in a sense he is right. The archive is intentionally crippled. A search brings back not text, but pictures -- pictures of pages. You can find the page that responds to your query, read it on your screen, and browse a few pages backward and forward. But you cannot download, copy, or read the book from beginning to end.
「これはeBookプロジェクトではないんだ!」ページはテキストではなく、写真で表示されダウンロードやコピーができないのは当然として、検索結果のページとその前後を読めるだけで、本を最初から最後まで読めるわけではない。(中略)

Users will be asked to give their credit card number before looking at pages in the archive, and they won't be able to view more than a few thousand pages per month, or more than 20 percent of any single book.
書籍の内容を見る際には、個人確認の方法としてクレジットカードの登録が必要で、ユーザーは月に2~3000ページ、あるいは同じ書籍の20%以下のページしか読むことができない。(中略)

"The point is to help users find a book," says Manber, "not to make a new source of information."
「重要な点は、ユーザーが本を見つけるのを助けることで、新しい情報ソースをつくりだすことではないんだ」

Manber is correct when he says that Amazon's Search Inside the Book is not an ebook project. It is merely a catalog. But a decade of Internet history proves that the catalog is exactly what you want to own.
Manber氏がSearch Inside the Bookはebookプロジェクトではない、といっていることは正しく、それは単にカタログである。ただし過去のインターネットの歴史は、カタログこそが必要なものであると証明している。


WIREDの記事は、Googleとの比較に加えて「人間がどのように情報へアクセスするための手段を構築してきたか」という意味でエジプトのアレクサンドリア図書館をメタファーとして紹介したり、非常に示唆に富んでいます。
分散型の全文検索システムWAISや、Webページを保管したWebアーカイブ”Wayback Machine”のプロジェクトで知られるBrewster Kahle氏のコメントには考えさせられます。

Kahle hates the idea that when people think of information, they think only of what's accessible via Google. "Seventy-one percent of college students use the Internet as their research tool of first resort," he says, citing figures from a 2001 PEW Internet Study. "Personally, I think this number is low. For most students today, if something is not on the Net, it doesn't exist."
Googleで検索可能なものだけが情報だという考えには非常に問題があるとKahle氏は指摘する。2001 PEW Internet Studyの調査を引用して「71%の学生が、最初のレポートのリサーチの方法としてインターネットを選んでいる」「個人的な感覚ではこの調査数値は実態より低いのではないか?最近の大多数の学生にとって、ネットに無い情報は存在しないも同然なんだ」

インターネットの情報ソースとしての価値が非常に大きいことは事実として、手軽に検索できる情報だけではなく、書籍の持つ、過去にさかのぼって深遠かつ広大な知識にも積極的に触れるべきだというのがKahle氏の意図ですが、個人的にもその考えに、まったくもって賛成で、Wired記事の指摘するとおり、このアマゾンの全文検索プロジェクトには非常に大きな社会的な意味合いもあると思います。
このプロジェクトについて、本が売れなくなるという懸念も指摘されていますが、逆に言えば、ちょっと検索すれば見つかる程度の情報は、既にインターネットの情報に置き換えられてしまっているのではとも思います。

「本が売れなくなる」:米アマゾンの全頁検索に米作家団体が反発(CNet)

(米国の作家団体)Authors Guildは、古い本や、あまり注目を集めていない本はこのサービスの恩恵を受けるかもしれないが、その他の本の価値が損なわれると述べている。「参考図書の大半は、こうしたデータベースによって間違いなく危険に晒される。(ほぼ全てといわないまでも)多くの旅行ガイドブックや料理本もそうだ」と同団体は忠告している。


情報誌にしても、手軽にもって歩ける、コンパクトにまとまっている、という書籍ならではのアドバンテージがありますし、インターネットに一部のコンテンツを公開してPRするのは今では当たり前では。旅行ガイドブックや料理本にしても、持って出かけたくなる、手元に置きたくなるような”編集”の仕方、ノウハウこそが出版社の競争力で、したがって出版社はAmazonの試みに概ね協力的なのも理解できます。
個人的にも、この全文検索サービスが日本で公開されたら、間違いなく買う書籍の数は増えそうな予感。すでにAmazonで買いまくっているのに、自分の財布にとってもかなりの脅威になりそう。
AmazonのA9などの検索エンジンについての開発戦略は以前にも調べましたが(Wired News内のManber氏はA9の責任者)、WEBの検索技術でGoogleに対抗するのではなく、まったく新しい検索対象(=世の中のあらゆる書籍)を自らの手で創り出す、そして電子書籍の販売も含めた、これまでのトライ&エラーから導き出されたビジネス感覚と、Amazonの持つ強力な流通システム。やはり只者ではないな~と実感。

関連記事
- Search Inside the Book : How It Works(アマゾンでの解説)
- アマゾンが仕掛ける「書籍のグーグル」は成功するか(Cnet)
- Amazon、書籍全文検索で売り上げ増(ZDNN)

Posted by jkanekomt at 2003年10月29日 19:36 | trackBack



Comments
Post a comment









Remember personal info?







関連記事