Folksonomy, Taxonomy & Enterprise Search

28. März 2007 22:00 Uhr  |  PC_admin  |  Permalink


Das Zeitalter des „Web 1,999“ beschert uns auch neue Varianten der Informationserschließung. Als Records und Dokumenten Manager hatte man sich über die Jahre daran gewöhnt, umfangreiche Erfassungsmasken mit Metadaten auszufüllen, um unstrukturierte Informationen mittels relationaler Datenbanken wiederzufinden.Dankbar hatte man das Aufkommen der automatischen Klassifikation und die Einführung von Vererbungsregeln über Dokumentenklassen begrüßt, die zumindest die Erfassung der Metadaten erleichterten. Aber schon früh hatten einige damalige DMS-Anbieter auf den Einsatz von Volltextdatenbanken gesetzt – als alleinige Such- und Verwaltungsmaschine oder aber als Ergänzung zur relationalen Index-Datenbank. Auch hier konnte man dann auf die aufwendige Eingabe von Metadaten verzichten und sich den Ergebnissen einer Volltextsuche anvertrauen. Bei allen Diskussionen um Metadaten, gerade in der Wirtschaft und bei den Archivsystemanbietern, bewegte man sich auf der Ebene von einigen Attributen und Auswahllisten. Die wissenschaftlichen Hintergründe beim Aufbau von Indizierungs- und Klassifikationsschema blieben Anbietern wie Anwendern häufig verborgen. Sie spielten sich in den Universitäten, in den Zirkeln von Information-Retrieval-Spezialisten und bei den klassischen Records Managern ab. Begriffe wie Thesaurus, Ontologie, Semantik oder Taxonomie schafften es selten bis in kommerziellen Systeme für Wirtschaftsunternehmen hinein. Dies war im offenbar komplett anders angesiedelten Markt der Bibliotheken und Online-Datenbanken anders. Auch gingen bei Anbietern von DMS-Lösungen die Unterschiede zwischen Ordnungskriterien, Schlagworten und anderen Indizes gern wild durcheinander. Aber man hatte sich damit arrangiert und mehrere Generationen von Archivsystemen kamen ohne die wissenschaftlichen Grundsätze der Informationsstrukturierung und -erschließung ganz gut aus. Zumal taxonomische und ontologische Ansätze der Informationserschließung recht aufwändig sind, bzw. bei rein manueller Eingabe als recht aufwändig gelten müssen.

Taxonmy & Ontology

Taxonomie in Bezug auf Dokumente bzw. Inhalte steht für ein Klassifikationssystem, eine Systematik oder den Vorgang des Klassifizierens. Es geht um die Schaffung von Ordnungs- und Ablagestrukturen mit Beziehungen zwischen Klassen und den zugeordneten Objekten. Eng verwandt ist die Taxonomie in der Ablageverwaltung auch mit dem Taxonomie-Begriff im sprachlichen Umfeld, geht es doch auch um die Umsetzung, Zuordnung und eindeutige Fassung von Begriffen in Ordnungssystemen. Taxonomie in der Linguistik dient zur Segmentierung und Klassifikation sprachlicher Begrifflichkeiten, um mit diesen ein formales Sprachsystem zu erstellen. In diesem Umfeld ist auch der Begriff Ontologie angesiedelt. Mal abgesehen von den philosophischen Ansätzen von Hegel, Bloch, Sartre und Co. dienen Ontologien in der Informationsverwaltung der Bildung von Kategorien, denen Einzelobjekte zugeordnet werden. In der Informatik wird darunter weitergehend eine Wissensrepräsentation eines formal definierten Systems von Begriffen und Relationen verstanden. Zusammengehalten wird eine Ontologie durch Inferenz und Integritätsregeln, die die Struktur, die Beziehungen und die Regeln selbst in einem geschlossenen kausalen System logisch und nachvollziehbar definieren. Ein Unterschied zwischen Taxonomie und Ontologie ist, dass die Ontologie ein Netzwerk von Informationen mit logischen Relationen darstellt, während die Taxonomie eine hierarchische Untergliederung bildet. Mit modernen Systemen kann man aber auch eine Taxonomie als hierarchische Abbildung einer auf Relationen aufgebauten Ontologie betrachten. Die Informationstechnik hilft uns hier, die Restriktionen klassischer hierarchischer Ordnungsprinzipien, in denen sich ein Begriff oder ein Objekt immer nur an einer Position in einer Hierarchie befinden kann, zu überwinden. Ähnliches gilt übrigens auch für hierarchisch aufgebaute Thesaurus, wo mittels Crosslinks nach ISO 2788 die rein hierarchischen Zuordnungen „durchbrochen“ werden können. Der Aufbau streng hierarchischer, z.B. dekadischer Taxonomien ist aufwändig und erfordert ausgebildete Fachleute. Die Nutzbarkeit und die Nutzung durch heterogene Anwendergruppen ist jedoch bei sehr tiefen und komplexen Strukturen nur sehr eingeschränkt. So ist es nur natürlich, dass durch neuere Technologien die taxonomische Erschließung von Inhalten in den Hintergrund gedrückt wird und sich zunehmend auf spezielle Anwendergemeinschaften beschränkt. Zwei Entwicklungen der letzten Jahre haben die Diskussion um den Wert von Taxonomien neu befeuert. Die erste stellt Taxonomien grundsätzlich in Frage: Enterprise Search.

Enterprise Search

„Google on my Desktop“ lautet bei vielen Anwendern Ruf nach einfacheren Informationserschleißungswerkzeugen. Man will sich nicht mehr mit der Eingabe von Metadaten und der Zuordnung von Objekten in Strukturen aufhalten. Wegspeichern der Information und dann mit Volltext-, Agenten oder Suchmaschinen auf die Inhalte los. Enterprise Search bezeichnet die unternehmensweite Suche nach Informationen in den gesamten Datenbeständen einer Organisation, wobei sowohl das Intranet und die externe Webseite als auch alle anderen Daten in Form von E-Mails, Datenbank-Einträgen, Dokumenten in Dateisystemen usw. erschlossen werden. Moderne Enterprise Search Lösungen bieten inzwischen aber auch die Strukturierung der Suchergebnisse an – in dem in Gestalt von Ordnern oder Referenzen aus den gefundenen Informationen selbst Cluster auf Basis der gefundenen Informationen und Ähnlichkeitsbeziehungen gebildet werden. Filter, Pipes und Auswertung persönlicher Präferenzen erlauben inzwischen auch ein Costumizing der Ergebnisse, das erhebliche Verbesserung in den Trefferlisten mit sich bringt. Angesichts des Verdrängungskampfes der Suchmaschinen, Google, Microsoft, Exlead, Yahoo usw. – jeder gegen jeden, wird auch hier immer mehr Komfort und Funktionalität zur Ergebnisverbesserung eingebaut werden. Nur der Ansatz der Informationserschließung ist ein gänzlich anderer als bei der herkömmlichen Indizierung und Kategorisierung von Informationen. Während Taxonomien und Ontologien versuchen bereits bei der Erfassung zeitnah mit hoher Qualität Ordnung und Struktur den Informationsobjekten mitzugeben, setzt die Suchmaschienen darauf, dass sie in einem großen Haufen von Informationen das Richtige schon findet. Die strukturierte Aufbereitung, d.h. das Anzeigen von Ordnungen, erfolgt nachträglich auf Basis der Suchergebnisse auf Basis von ermittelten Ähnlichkeiten oder auf Grund von gespeicherten persönlichen Präferenzen. Inzwischen gibt es noch einen weiteren Ansatz, der besonders im Web-2.0-Umfeld um sich greift: Folksonomy.

Folksonomy

Folksonomy ist ein Kunstwort, das um 2002 auftaucht und Thomas van der Wal zugeschrieben wird. Folksononomy setzt sich aus den Begriffen Folk und Taxonomy zusammen. Durch die Verbindung der beiden Begriffe wird suggeriert, es handele sich um eine Taxonomie die mehr oder weniger demokratisch, ständig wachsend und sich ständig verbessernd, sozusagen sich selbst organisierend von der Informationsnutzergemeinschaft geschaffen wird. Der Begriff bezeichnet eine Technik des gemeinschaftlichen Indexierens, bei der durch eine größere Gruppe und mit Hilfe verschiedener Arten Sozialer Software Informationsobjekte mit Begriffen klassifiziert werden und in Verzeichnissen für Lesezeichen öffentlich zugänglich bereitgestellt werden. Diese Begriffe nennt man aus dem Angloamerikanischen kommend Tags oder Labels. Tags werden verwendet um Internet-Seiten, Bilder, Videos oder Blogeinträge mit Schlagworten zu versehen. Dies tut jeder Benutzer für sich. Bookmarks und Tags sind also zunächst ein Werkzeug für den einzelnen Anwender um sich Informationen besser merken zu können und Webseiten schneller wiederzufinden. Erst durch die Schaffung von öffentlichen Bookmark-Seiten wie Del.icio.us oder Mister Wong und der öffentlich zugänglichen Tagging-Funktionen auf populären Community Webseiten wie You-Tube, Flickr oder Xing fand das Tagging weite Verbreitung. Folksonomy lebt vom Erfolg der Social Software. Folksonomy hat aber nichts mit Qualität zu tun. Während Thesaurus für Taxonomien von Experten aufgebaut und von den Anwendern nur kontrolliert genutzt werden, kann bei Folksonomy jeder mitmachen. Falschschreibung, seltsame Kürzel, zusammengeschriebene Begriffe, die eigentlich getrennte Worte sind, Synonyme, Sprachunterschiede – alles verschwimmt in einem großen Topf. Folksonomy setzt darauf, dass sich bei ausreichender Nutzung und ausreichender, statistisch relevanter Anzahl gleicher Tags zu gleichen Inhalten sozusagen dass Wissen der Gemeinschaft durchsetzt, ohne dass ein Experte sich vorher über die Zuordnung Gedanken gemacht haben muss. In bekannten Bookmark-Communities setzt sich aber schon einmal sehr schnell eine Falschschreibung oder Falschzuordnung durch – der Eintrag muss nur häufig genug kopiert werden, da Kopieren immer einfacher als neu zuordnen ist. Genau genommen ist Folksonomy mittels Tagging nichts anderes als wenn man im Dokumentenmanagement alle Dokumente nur mittels eines einzigen Textfeldes indiziert, in die jeder Anwender ohne Kontrolle Begriffe getrennt durch Leerzeichnen oder Komma nach Gutdünken einträgt. Enterprise Search und Tagging verbindet der „Ein-Feld“-Ansatz – ein Eingabefeld für die Suche, und beim Tagging für die Erfassung. Folksonomy bietet aber auch andere Nutzungs- und Visualisierungsmöglichkeiten als herkömmliche Ergebnislisten. Hierzu gehört z.B. die Tagging Cloud, die Schlagwortwolke. Hier werden die zu einem Informationsobjekt vergebenen Tags als Liste oder Wolke dargestellt, wo die Größe, Stärke, Farbe oder Hervorhebung die Häufigkeit der Verwendung dieses Begriffes darstellt. Dies geht schon, wenn jedem Objekt z.B. nur ein Tag vergeben wird. Weitere Möglichkeiten der Aufbereitung hat man, wenn jedem Objekt mehrere Tags zugeordnet sind – was heute eigentlich den Regelfall darstellt. Man kann die Zusammenhänge der gemeinsamen Verwendung von Schlagworten so auch als Netzwerk darstellen, wo man sich von einem Knoten zum anderen navigiert und die jeweils im Zusammenhang vergebenen Schlagworte zu Ermittlung verwandter Objekte nutzen. Letztlich haben wir es hier mit einer vereinfachten Anwendung lang bekannter Technologien semantischer Netze zu tun. Mit Folksonomy verbinden sich so eine Reihe guter Ansätze der Informationsstrukturierung, die jedoch daran kranken, dass im Erfassungsfeld für die Begriffe zahlreiche Restriktionen und Unterschiede zu finden sind. Werden die Begriffe nur durch Leerstelle getrennt, kann man Zusammenhänge nur durch Zusammenschreibung oder Unterstriche erzeugen. „Web 2.0“ ist nicht möglich, also findet sich das Tag als „Web2.0“ oder „Web20“ wieder, „Records Management“ als Recordsmanagement“ oder „Records_Management“. Die Technik „zwingt“ den Anwender nahezu dazu, unrichtige Tags zu bilden. So führt sich Folksonomy fast ad absurdum, außer dass man für die eigenen Linklisten in den Communities schneller auf bestimmte Webseiten aufmerksam wird.
Betrachtet man die aktuellen Trends bei den drei aufgeführten Indizierungs-, Such- und Erschließungsansätzen, ist festzustellen, dass Taxonomien und Ontologien weiterhin ihre Berechtigung haben und neben Enterprise Search und Folksonomy weiter bestehen werden. Sie können sogar dazu benutzt werden, die Ergebnisse von Enterprise Search und Folksonomy erheblich zu verbessern, in dem sie als Vorschlagsystem bei der Erfassung, bei der Indizierung selbst im Hintergrund als Ergänzungs- und Referenzsystem und bei der Aufbereitung der Suchergebnisse zur Verbesserung, Strukturierung und Navigation zu den „richtigen“ Inhalten benutzt werden. Vielleicht gibt es ja in Zukunft einmal eine Zusammenführung aller drei Ansätze – Folksonomy als Vorschlags- und Zuordnungssystem für Taxonomien, Thesaurus und Ontologien, Ontologien als Hilfssysteme von Enterprise Search. In speziellen System ist dies bereits zu finden – der Weg zum Allgemeingut ist noch weit. (Kff)

PROJECT CONSULT Newsletter 20070329

Neuen Kommentar verfassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Ich stimme zu, dass die von mir eingegebenen Daten einschließlich der personenbezogenen Daten an PROJECT CONSULT übermittelt und dort zur Prüfung der Freischaltung meines Kommentars verwendet werden. Bei Veröffentlichung meines Kommentars wird mein Name, jedoch nicht meine E-Mail und meine Webseite, angezeigt. Die Anzeige des Namens ist notwendig, um eine individuelle persönliche Kommunikation zu meinem Beitrag zu ermöglichen. Anonyme oder mit falschen Angaben eingereichte Kommentare werden nicht veröffentlicht. Zu Nutzung, Speicherung und Löschung meiner Daten habe die Datenschutzerklärung zur Kenntnis genommen.

Ich versichere, alle gültigen Vorgaben des Urheberrechts beachtet zu haben. Ich habe keine Bilder, Grafiken, Texte oder Links in meinem Beitrag verwendet, die durch CopyRight, Leistungsschutzrecht oder Urheberrecht geschützt sind. Für den Inhalt meines Kommentars bin ich trotz Prüfung und Freischaltung durch PROJECT CONSULT ausschließlich selbst verantwortlich. Meine Rechte am Beitrag werden bei PROJECT CONSULT nur durch die CC Creative Commons by-nc-nd Vorgaben gewahrt.