カテゴリ分けでは世界を認識できない。物理的な制約を超えて意味づけを実現するFolksonomy

Shirky.comの以下の記事はFolksonomyに関する分析の中でも出色のでき。ベースはO'Reilly ETech 2005年の講演のようです。

Shirky: Ontology is Overrated -- Categories, Links, and Tags

なかでもYahoo!ディレクトリなどの"カテゴリ分け"という情報分類から、GoogleのPage Rankの関係性による情報発掘の仕組みへの転換する図解は、WEBでの情報アクセスの変化が一目で理解できます。

folksonomy
[ Hierarchy ]

folksonomy
[ Plus Links ]

folksonomy
[ Plus Lots of Links ]

folksonomy
[ Just Links (There Is No Filesystem) ]

Images above are from Shirky: Ontology is Overrated -- Categories, Links, and Tags

このレポートでは、そもそも"カテゴライズ"という作業とは何だったのか?という疑問から始まっています。例えば、図書館の本をカテゴライズするという作業において、本の内容によるジャンル分けがされているように思われるけれど、実はそうではない、という点が、このレポートでの重要な着眼点。

図書館における本のカテゴライズは、本棚のスペースによって決まっている

例えば、図書館の案内図で、「日本文学」、「ヨーロッパ文学」、「アジア・中近東・アフリカ文学」というような三つの棚が並んでいるケース。ここで、日本文学とヨーロッパ文学が、カテゴリ的に並列されているのは、単純にここが日本なので、日本文学の蔵書が多いから。意味的には、日本文学とフランス文学という形で並列されるべき構造が、本棚のスペース(陳列できる数)によって違うレベルのカテゴリが並列化されている。さらに言えば「アジア・中近東・アフリカ文学」というような意味があるのかないのか不明なカテゴリ分けにもなりかねない。
実際のところ、図書館のカテゴライズでは、「日本文学」などではなく、「赤い本の棚」というような分け方でもワークするのではないか?という意見も。

この物理的制約によるカテゴライズは、Yahoo!などのディレクトリサービスでも同じこと。一つのカテゴリにあまりにもリンクの数が増えてしまうと、見た目に分かりづらくなってくる。そのために数の多いカテゴリはサブカテゴリに細分化され、さらにレベルの異なるカテゴリが並列で表示されるので、最終的には無秩序な階層構造になってしまう。
そこで、分かりやすくリンクをつなげげていくと、そもそもの階層カテゴリの意味がなくなっていき、情報の発見が不可能になってくる。そこで登場するのがリンクの数で、重要度を判断するGoogleのPageRank。というのが上記の図の説明にもあたるのかな。

また、人間が何によって情報を整理しているか、というのは様々で、例えば「プログラミン系の本で、分厚くて、表紙が白くてラクダの絵が書いてあるやつ」と言っても、知らない人にはまったく分からないけれど、ああ、あれかなと分かる人もいる。
誰か専門家がいて、万人に通用するようなカテゴリ分けをする、というのはそもそも不可能なのでは?というポイントも。したがって、思い出せる範囲でキーワードを入力しつつ、PageRankで重要なものから見ていく、という人間の記憶をたどる動作と近いGoogleが、情報発見ではベターな方法。

Shirky.comのレポートでも、「世の中を把握するのには、カテゴリ分けから始めるのがいい、と言われてきたけれど、そもそもカテゴリ分けっていいアイデアなの?」という所を見極めたほうがいい、というスタンス。
話はさらに広がって、カテゴリ分けを、みんなが信用してきたのは、政府が法規制上、○○は□□に属する、と決めてきたのを、盲目的に信用してきただけではないかと。
例えば「西ドイツ」というカテゴリはわずか50年で意味が無くなってしまった。ベルリンという街は何百年もそこにあるのに。そのときに第一カテゴリが「国」で、その下に「地方」、さらに下に「街」というカテゴリ構造に意味はあるのか?。上位とされている「国」というカテゴリは、実は存在の堅牢さという点では、下位の「街」というカテゴリに遥かに及ばないのではないか?
レポートの中のこの発想の転換は、生活の隅々にまで入り込んだ、カテゴライズの影響に気づかされます。

The Filtering is Done Post Hoc

Folksonomyという新しい分類方法の重要なポイント。まず最初にカテゴリ分けをしよう、という従来のカテゴライズではなく、実際に目にした情報や、あるいは街などの物理的な存在に対してもTagをつけていくことでPost Hocに情報をフィルタリングすることができる。

The Filtering is Done Post Hoc - There's an analogy here with every journalist who has ever looked at the Web and said "Well, it needs an editor." The Web has an editor, it's everybody. In a world where publishing is expensive, the act of publishing is also a statement of quality -- the filter comes before the publication. In a world where publishing is cheap, putting something out there says nothing about its quality. It's what happens after it gets published that matters. If people don't point to it, other people won't read it. But the idea that the filtering is after the publishing is incredibly foreign to journalists.

つきつめると、「世界の意味は既に決まっているのか?あるいは我々が世界に意味を見いだすのか?」という哲学にもつながると。あるいは、誰かが決めた世界を「間違いがない世界」として認識するのがいいのか?ということにも。
結論のなかで強調されているのは、FolksonomyはWEBのアプリケーションとして実装されているけれど、システムは何も意味付けをしていないということ。例えばdel.icio.usは、あるURLに他のユーザーがつけているタグによって意味付けされているけれど、あくまでも最終的な判断はユーザーにゆだねられている。他人のタグや情報を信じるかどうかを判断したり、あるいは他の人のタグを参考に、自分でタグ付けする作業を通じて、世の中に意味を見いだしていく。そこには物理的な制約による、カテゴリ分けや階層構造は存在せず、自分の便利が、皆の便利につながっていくと。

It comes down ultimately to a question of philosophy. Does the world make sense or do we make sense of the world? If you believe the world makes sense, then anyone who tries to make sense of the world differently than you is presenting you with a situation that needs to be reconciled formally, because if you get it wrong, you're getting it wrong about the real world.

If, on the other hand, you believe that we make sense of the world, if we are, from a bunch of different points of view, applying some kind of sense to the world, then you don't privilege one top level of sense-making over the other. What you do instead is you try to find ways that the individual sense-making can roll up to something which is of value in aggregate, but you do it without an ontological goal. You do it without a goal of explicitly getting to or even closely matching some theoretically perfect view of the world.

Critically, the semantics here are in the users, not in the system. This is not a way to get computers to understand things. When del.icio.us is recommending tags to me, the system is not saying, "I know that OSX is an operating system. Therefore, I can use predicate logic to come up with recommendations -- users run software, software runs on operating systems, OSX is a type of operating system -- and then say 'Here Mr. User, you may like these links.'"

What it's doing instead is a lot simpler: "A lot of users tagging things foobar are also tagging them frobnitz. I'll tell the user foobar and frobnitz are related." It's up to the user to decide whether or not that recommendation is useful -- del.icio.us has no idea what the tags mean. The tag overlap is in the system, but the tag semantics are in the users. This is not a way to inject linguistic meaning into the machine.

It's all dependent on human context. This is what we're starting to see with del.icio.us, with Flickr, with systems that are allowing for and aggregating tags. The signal benefit of these systems is that they don't recreate the structured, hierarchical categorization so often forced onto us by our physical systems. Instead, we're dealing with a significant break -- by letting users tag URLs and then aggregating those tags, we're going to be able to build alternate organizational systems, systems that, like the Web itself, do a better job of letting individuals create value for one another, often without realizing it.

以上は自分の理解のために簡単にまとめてみましたが、引用元「Shirky: Ontology is Overrated -- Categories, Links, and Tags」の面白さの一部でしかないので、ぜひ原文を読まれることをおすすめします。