Metadaten: Die neuen Herausforderungen für Wiki-Suchmaschinen

The word Metadata in Wikidata Morse code
Daniel Mietchen, The word Metadata in Wikidata Morse code, CC0, via Wikimedia Commons

Früher war alles ganz einfach: Datenbankabfragen für strukturierte Daten und Volltextsuchen hat man getrennt konzipiert. Doch das ist Geschichte. In den neuen Suchmaschinen lassen sich Metadaten sehr viel gezielter suchen. Mit diesen neuen Möglichkeiten verschwimmen die Unterschiede zwischen einer Datenbankabfrage und einer Suche. Was bedeutet das für die technologische Entwicklung von Wikis?

Verknüpfte Abfragen

In meinem letzten Blogbeitrag hatte ich geschrieben, dass die Suchmaschinen in Wikis alle durchsuchbaren Inhalte im Volltext indexieren. Metadaten wie Kategorien oder Autoren werden ergänzend erfasst und sind damit durchsuchbar. Mit Semantic steigt die Anzahl der erfassbaren Metadaten dramatisch.

Die Indexierung von semantischen Informationen ist aber noch keine semantische Suche.  Wenn im Semantic-MediaWiki-Kontext von semantischem Suchen gesprochen wird, ist in der Regel gemeint, dass verknüpfte Abfragen möglich sind. Ein Beispiel für eine so verstandene semantische Suche wäre: “Gib mir alle Bürgermeister aus New York nach 1971”. In einer klassischen Stichwortsuche kann man dagegen nur nach “Bürgermeister” oder nach “New York” oder nach “Bürgermeister von New York” suchen.

Echte Semantik und Reasoning

Dazu muss man sagen, Semantic MediaWiki ist heute eine vergleichsweise einfache Anreicherung von Inhalten mit Metadaten. Die Semantic würde dann eine Rolle spielen, wenn man daraus mit höheren Formalismen ein sogenanntes “Reasoning” betreibt. Also nach Beziehungen zu suchen, die über mehrere Ecken gehen.
Ein Beispiel für Reasoning ist: “Ich bin der Vater von David und der Peter ist mein Vater. Was ist nun das Verhältnis von Peter zu David?”. Echte Semantik könnte solche Verknüpfungen über mehrere Ecken machen. Man kann auch in Semantic MediaWiki solche Verknüpfungen über den SPARQL-Abfrageformalismus abbilden. Das kann eine Stichwort-Suche nicht. Auch die heute vielfach eingesetzte Suchmaschine Elasticsearch ist dazu nicht in der Lage. Aber auf der ersten Ebene, wie die Frage nach den Bürgermeistern aus New York nach 1971, funktioniert das mit Filtern ganz gut. Eine Frage nach den Bürgermeistern in den fünf größten Städten würde nicht funktionieren, weil das schon wieder mehr Intelligenz voraussetzt und nicht über Filter organisiert werden kann. In dem konkreten Beispiel müsste man eine Suche in der Suche anstoßen.

Metadaten in der Wikipedia – eine Herkulesaufgabe

Man sieht, dass die Möglichkeiten einer Suchmaschine bei einer bestimmten Komplexität aufhören. Wir stehen dennoch vor einem großen Schritt in der Entwicklung der in Wikis implementierten Suchmaschinen. Nehmen wir zum Beispiel Wikipedia.

Eine gute Suche erlaubt Abfragen wie “Gib mir alle berühmten Frauen der 80er Jahre des 20. Jahrhunderts”. In der Wikipedia sind diese Metadaten Kategorien. Die Verknüpfung von Kategorien wie “Berühmte Frau” und “Geboren zwischen 1980 und 1989” kann eine Suche in Echtzeit herstellen.

Trotzdem werden solche Abfragen in der Wikipedia nicht unterstützt. Dabei hatte sich Wikimedia, die Organisation hinter der Wikipedia und ihrer Schwesterprojekte, vor einiger Zeit für Elasticsearch als Suchmaschine entschieden. Eine Suchmaschine, die für solche Aufgaben wie geschaffen ist. Trotzdem bleiben die Wikipedia-Implementierungen von Elasticsearch weit hinter den Möglichkeiten zurück, die eine solche Suche bietet. Man kann sagen, Wikipedia hat eigentlich noch gar kein sinnvollen Umgang mit Metadaten.

Im Falle der Online-Enzyklopädie ist das Problem vielschichtig. Das Projekt ist historisch gewachsen und es gibt daher sehr unterschiedliche Quellen, die nicht harmonisiert werden. Metadaten liegen u.a. in den Kategorien. Gleichzeitig gibt es Wikidata, eine Plattform, in der kollaborativ Metadaten gesammelt und belegt werden, um sie zentral in die vielen Wikipedias einbinden zu können. Diese verschiedenen Quellen mit ihren nicht-einheitlichen Auszeichnungen müssten erfasst und verarbeitet werden. Es gibt Doubletten, unterschiedliche Systematiken. Und das auch noch in den unterschiedlichsten Sprachen. Das zu harmonisieren ist eine Herkulesaufgabe.

Der Wikipedia-Gründer Jimmy Wales fordert schon länger eine Verbesserung der Suche. Es gibt zudem ein Team, das die weitere Entwicklung der Suche unter dem Namen Discovery vorantreiben soll.

Es ist aber auch nicht unwahrscheinlich, dass in naher Zukunft auch in anderen Feldern wichtige Schritte bei der der Verknüpfung von Wikis und Metadaten stattfinden. So stellen sich beispielsweise In Unternehmenswikis wie BlueSpice viele Probleme nicht, mit denen das Wikipedia-universum konfrontiert ist. Das Umfeld und die Aufgaben sind hier überschaubarer. Kein schlechter Startpunkt, um effiziente Suchstrategien mit Metadaten weiter zu entwickeln.

Dies könnte Ihnen auch gefallen

Schreiben Sie einen Kommentar