Tagging und Kategorien: Probleme der Verschlagwortung im Web

Bunter Stempelhalter
Thamizhpparithi Maari, A rubber stand, CC BY-SA 3.0, via Wikimedia Commons

Fast alle Web-Plattformen bieten heute kollaborative Tagging- oder Kategoriesysteme zur Auszeichnung ihrer Informationen an. Wie funktionieren diese Systeme grundsätzlich?

Tagging ist eine intellektuelle Verschlagwortung und Interpretation des Materials, die durch eine gewaltig große Anzahl von Nutzern zu einer effektiveren Suche führt. Ein Nutzer trägt beispielsweise zum Tagging-System bei, indem er für Inhalte, wie z. B. Wikiseiten Schlagworte wie „Tierschutz“, „Marder“, „Otter“ oder „informativ“, sogenannte Tags, vergibt, unter denen der Artikel dann von ihm selbst und von anderen gefunden werden soll.

Dabei können beliebig viele Schlagwörter ganz frei ohne zuvor festgelegte Regeln vergeben werden. Dies schließt allgemeine Kategorien wie »Rezept« und »Fußball«, aber auch beschreibende und subjektive Attribute wie »German« oder »cool« mit ein.

Bei einer großen Anzahl von Nutzern ist es wahrscheinlich, dass sie sich auf sinnvolle und schlüssige Zuordnungen einigen, so dass sich also nach einiger Zeit ein Schlagwortsystem ergibt, das einen für Recherchezwecke brauchbaren Kernbestand an Begriffen enthält. Diese durch gemeinschaftliches Indexieren erstellten Sammlungen von Tags heißen auch Folksonomien.

Taxonomie versus Folksonomie

In Anfangszeiten des Webs nutzte man hauptsächlich Verzeichnisse oder Kataloge, um sich im Netz zurechtzufinden. Zum einen waren sie intuitiv, wie man es aus dem Printbereich von den »Gelben Seiten« schon kannte, zum anderen waren die Websuchmaschinen noch nicht ausgereift. Die Einordnung von Webseiten in ein Verzeichnis geschieht anhand eines zuvor festgelegten hierarchischen Klassifikationsschemas, einer sogenannten Taxonomie. Eine Seite über Katzen würde danach der Kategorie »Tiere« und diese wiederum der Kategorie »Umwelt & Natur« zugeordnet werden.

Der Nachteil dieser Verzeichnisse ist, dass auch ein hierarchisches Kategoriensystem ein subjektives Ordnungssystem darstellt, dem nicht jeder Nutzer folgen kann oder will. Schließlich kann man Gegenstände in verschiedene »Schubladen« legen.
Eine Banane ist »Frucht« und »Obst«. Wo ist sie zuzuordnen? Und wo wird sie gesucht?

Weitere Probleme bereitet auch noch, dass die Nutzer unterschiedliche Sozialisationen und Lernprozesse durchlaufen und damit auch in ihren Köpfen abweichende Assoziationssysteme entwickelt haben, mit denen sie sich erinnern und mit deren Hilfe sie suchen. Und sie verfügen über unterschiedliche Bildungsniveaus.
Gehören Wale rein biologisch zu den Fischen oder zu den Säugetieren? Nun wissen viele, dass sie zu den Säugetieren gehören, würden aber vielleicht trotzdem in der Eile zuerst bei »Fischen« suchen, weil sie vielleicht »Meerestiere« meinen, was ihnen aber gerade nicht einfällt. Andere hören das mit den Säugetieren eben zum ersten Mal.

Ein hierarchisches Kategoriensystem ist der Versuch, das vorhandene Wissen im Web und damit auch diese Assoziationssysteme zu normieren. Und deshalb orientieren sich hierarchische Kategoriesysteme an etablierten Standards und stützen sich auf wissenschaftlich gewonnene Erkenntnisse. Aber auch eine mit bester Absicht und bestem Wissen erstellte Taxonomie kann ihr Ziel verfehlen, weil sie nicht an den konkreten Erfahrungen und Bedürfnissen der Nutzer ansetzt. Das hat damit zu tun, dass eine Taxonomie aufgrund ihres normativen Charakters unterschiedliche Zugänge zu einem Thema nicht mehr darstellen kann und sie meist das Ordnungssystem einiger weniger, wenn auch gut informierter Leute ist.

Taxonomien sind somit nicht nur von der Struktur her streng hierarchisch, sondern in gewisser Weise auch »von oben« vorgegeben. So war im Open Directory Project dmoz die ganze Redaktion mit der ständigen Pflege der Taxonomie beschäftigt, was zum einen eine möglicherweise einseitige Darstellung bedeutete, auf der anderen Seite nicht unerhebliche Ressourcen fraß (vgl. Alby 2007). Möglicherweise sind das auch die Gründe, warum das Projekt im März 2017 eingestellt wurde.

Screenshot DMOZ, Archivierte Version
Das archivierte Web-Verzeichnis von dmoz (Screenshot).

 

Auch durch die Optimierung der Suchmaschinen wurden die Verzeichnisse stark zurückgedrängt. Nachdem jedoch angesichts der wachsenden Informationsflut und Manipulationsmöglichkeiten auch Suchmaschinen zum Teil versagten, wuchs der Bedarf an einer »intellektuellen« und zugleich statistischen Erschließung der Datenmengen, der sich letztendlich in dem Entstehen der Folksonomien niederschlug.

Das erste Tagging-System wurde von del.icio.us im Jahre 2003 implementiert. Der Neologismus »Folksonomy« selbst tauchte erstmals 2004 auf einer Mailingliste von Thomas Vander Wal auf. Es ist eine Wortneuschöpfung aus dem englischen »Folk« und »Taxonomy«. Diese soll ausdrücken, dass es bei diesem Konzept keine Experten gibt, die die Bedeutung und Ordnung der Dinge festlegen, sondern einen dezentralen, unkoordinierten, sozial-kumulativen Effekt, der jedoch letztendlich auch zu einem Ordnungssystem führt.

Das Vokabular einer Folksonomy ist nicht kontrolliert, sondern entsteht aus frei gewählten Begriffen der Benutzer dieser Folksonomy. Diese ist nicht hierarchisch strukturiert. Da keines der Tags einem anderen übergeordnet ist, gibt es auch keinerlei Eltern-Kind-Beziehungen. Der einzige Zusammenhang, der zwischen den Tags besteht, sind die damit umschriebenen Objekte oder die Benutzer, von denen sie verwendet werden. Ein Tag kann jedoch viel mehr ausdrücken kann als ein normales Schlagwort, das sich meistens nur auf den Inhalt eines Gegenstands bezieht. Ein Tag kann, zum Beispiel auch Metainformationen wie Besitzangaben oder Qualitätsäußerungen über einen Bookmark, einen Artikel etc. wiedergeben. Da eine Folksonomy die Gesamtheit aller Tags darstellt, die Benutzer bis zu einem bestimmten Zeitpunkt eingegeben haben, wächst sie durch die Nutzung des Tagging-Systems und verändert sich mit jeder Benutzereingabe.

Vorteile und Nachteile von Folksonomien

Folksonomien haben im Vergleich zu Taxonomien viele Vorteile, die vor allem im Zusammenhang mit der gebotenen Freiheit stehen:

  • Schnell und einfach. Folksonomien sind sehr einfach, was Zeit- und Arbeitsaufwand betrifft. Man kann Tags sofort beim Erzeugen des Objekts oder Inhalts hinzufügen. Damit wird es den Benutzern ermöglicht, ohne Training und Vorwissen sofort an dem System teilzuhaben.
  • Allumfassendes, dynamisches Vokabular. Folksonomien enthalten den Wortschatz von jedem einzelnen Anwender, ohne etwas auszulassen. Es gibt keine Autorität, die ein Vokabular vorschreibt. Damit können auch originelle Ideen, die sich außerhalb des Mainstreams befinden, Fuß fassen. Durch die zumeist große Zahl von Benutzern sollen Informationen und Zusammenhänge, die dem Einzelnen nicht aufgefallen sind, sichtbar gemacht werden. Dies bedeutet auch, dass eine Folksonomie die Weiterentwicklung des Anwendervokabulars widerspiegelt. Sie wächst quasi mit und reflektiert dabei die Terminologie, Genauigkeit und Wortwahl der Benutzer.
  • Folksonomien skalieren beinahe ohne zusätzlichen Aufwand auf große Mengen von Daten. Sie können einfach erweitert und sich ändernden Voraussetzungen angepasst werden.
  • Der Zufall spielt in Folksonomien eine wichtige Rolle. Die Benutzer einer Folksonomy werden dazu angeregt, von ihren Tags oder Objekten ausgehend nach weiteren Benutzern zu suchen, die ähnliche Interessen haben. So ist es über diese Verbindung möglich, Objekte von anderen Benutzern zu finden, die man bei einer einfachen Suche in einer Suchmaschine nie gefunden hätte.

Gleichzeitig wird die Freiheit des Taggings aber auch von den Kritikern als Nachteil empfunden. Die größten Probleme sind dabei sprachlicher Natur: Die Tags werden in den meisten Systemen nicht mithilfe von Wörterbüchern nachbearbeitet, so dass sie wörtlich zu nehmen sind und keinerlei Toleranz zulassen. Hierzu einige Beispiele:

  • Leerzeichen, mehrteilige Wörter. Viele bekannte Folksonomy-Systeme erlauben keine Leerzeichen in Tags, daher können zusammenhängende Begriffe nur dargestellt werden, indem sie zusammengeschrieben oder mit Trennzeichen (Unterstrich, Bindestrich, Plus usw.) verbunden werden. Diese Trennzeichen wirken aber bedeutungsunterscheidend und können eventuell dafür sorgen, dass Ressourcen nicht gefunden werden.
  • Synonyme und Homonyme. Es gibt in Folksonomy-Systemen keine strukturierte Synonymkontrolle. Oft werden verschiedene Wörter für denselben Begriff verwendet. Viele Objekte werden auch gleichermaßen in Mehrzahl und Einzahl oder auch in verschiedenen Sprachen beschrieben. Wenn es dann auch noch das gleiche Wort für verschiedene Begriffe gibt, wie zum Beispiel bei Bank, werden die Treffer für beide Begrifflichkeiten zurückgeliefert. Flickr hilft sich in diesem Fall mit der Methode des Clusterings, das heißt, die Bedeutung eines Begriffs wird durch die »benachbarten« Tags erfasst.
  • Subjektivität der Begriffe. Es kann durchaus vorkommen, dass mehrere Nutzer dieselbe Ressource aus unterschiedlichen Interessen oder Kenntnissen oder Aufgabenstellungen heraus taggen. Aufgrund dessen ist es sehr unwahrscheinlich, dass die Nutzer die exakt gleichen Tags wählen. Wahrscheinlich werden sie im Kern gleiche oder ähnliche Tags wählen, aber um diese Kerntags werden sie sehr persönlich gefärbte eingeben, die es ihnen selbst leichter machen, später den Inhalt wieder einzuschätzen. Der kollaborative Effekt geht bei diesen Tags allerdings verloren.
  • Rechtschreibfehler und Sonderzeichen. Auch Tags, die Rechtschreibfehler oder Sonderzeichen enthalten, sind in die Summe der nicht erkannten Tags einzurechnen. Dabei muss noch nicht einmal der Nutzer die Schuld dafür tragen: Durch die falsche Kodierung der deutschen Umlaute könnte der Tag zum Beispiel unbrauchbar werden.

Neben Problemen auf der sprachlichen Ebene müssen folgende Argumente als Minuspunkte gewertet werden:

  • Keine exakte Suche. Folksonomien sind nicht für gezielte Suchanfragen geeignet. Obwohl sie die Möglichkeit zum Suchen nach Tags und Benutzern bieten, eignen sich Folksonomien viel eher zum Browsen und Stöbern. Denn für ein ganz bestimmtes Ziel müsste man zunächst genau wissen, wie die anderen Benutzer diese Seiten getaggt haben.
  • Das Taggen wird in den seltensten Fällen in irgendeiner Form kontrolliert. Damit ist es sehr anfällig für Manipulation. Man gibt einfach viele beliebte Tags an, wodurch ein Objekt höher gerankt und ständig gefunden wird – egal, ob die Tags nun passen oder nicht.

Visualisierungen

Während es bei den Webverzeichnissen naheliegt, die Kategorien und Items ganz einfach zum Beispiel anhand von Einrückungen oder Hierarchiebäumen visuell darzustellen, erfordert dies bei einer scheinbar chaotischen Ansammlung von Begriffen wesentlich mehr Kreativität.

Die bisher gängigste Methode sind – oder waren – die sogenannten Tagclouds, auf Deutsch am besten mit »Wortwolken« übersetzt. Man versteht darunter eine Zusammenstellung von Tags, die einem Objekt verliehen wurden. Die Logik dahinter ist ziemlich intuitiv: Je häufiger ein Tag unter sämtlichen Schlagwörtern vorkommt, desto höher ist sein Gewicht für den gesamten Webauftritt. Fügt man dann sämtliche Tags als Links (meistens alphabetisch) in einer Liste zusammen, sieht man sofort, welche Schlagworte am häufigsten verwendet werden: Je höher die Gewichtung des Wortes, desto größer, dicker oder farbiger erscheint es in der »Wolke«.

Tagcloud
Hanteng: Tag Cloud, CC BY-SA 3.0, via Wikimedia Commons

 

Zur Erstellung der Tagclouds kann auch die Häufigkeit bestimmter Begriffe auf einer Homepage herangezogen werden oder die Termini und Gewichtungen werden intellektuell eingeben (zum Beispiel Spiegel Online). Tagclouds geben auf diese Weise einen zusätzlichen Überblick über die Themengebiete. Sie sind als Ergänzung zur konventionellen Seitennavigation zu verstehen, ersetzen diese aber nicht. Mittlerweile sind Tag-Clouds aus der Mode geraten und kaum noch im Netz zu finden.

Einige der größeren Community-Plattformen, wie Flickr und Delicious, haben auch mit ausgefalleneren Methoden zur Darstellung der Tags experimentiert. Diese Art der Visualisierung hat sich jedoch bisher nicht durchgesetzt und wird eher in Nischenbereichen eingesetzt.

Screenshot MusicMap
Anzeige ähnlicher Musikbands auf MusicMap

 

Als Beispiel sieht man in der obigen Abbildung, wie beispielsweise MusicMap die Beziehungen zwischen gespeicherten Musikern und Stilrichtungen veranschaulicht. Die Nähe zwischen den Tags »Red Hot Chilli Peppers« und »Muse« zeigen die Nachbarschaftsverhältnisse auf.

Das sehr beliebte Geo-Tagging ist eigentlich eine Sonderform des Taggens: Die jeweiligen Objekte werden mit geografischen Standortinformationen angereichert. In der Regel bestehen sie aus dem Breitengrad und dem Längengrad. Aber erst durch die Visualisierung anhand von Kartenmaterial wird der Clou dieser Taggingform sichtbar. Bilder, Daten und sogar Personen können nun sofort auf einer Landkarte geographisch verortet werden.

Passend zu diesen Anwendungen gibt es bereits Kameras mit einer Geo-Tagger-Funktion, die zusammen mit einem Foto auch gleich die exakte Position abspeichern.

Literatur
Tom Alby (2008): Web 2.0: Konzepte, Anwendungen, Technologien, 3. Auflage, München.

 

Social Web CoverAuszug aus:
Anja Ebersbach, Markus Glaser, Richard Heigl:
Social Web,
3. überarbeitete Auflage,
UVK 2016.

Dies könnte Ihnen auch gefallen

Schreiben Sie einen Kommentar