Internet Archive nun mit über 240000000000 URLs

10. Januar 2013 20:49 Uhr  |  Dr. Ulrich Kampffmeyer  |  Permalink


Die "Wayback Machine" hat jetzt über 240 Millionen URLs archiviert, hier die Pressemitteilunghttp://bit.ly/ZMhiCD. Das Internet Archive – www.archive.org – wurde in einer Großaktion überholt und um 90 Millionen URLs ergänzt. Wie gut ist die Nutzbarkeit archivierter Webseiten?

Diese URLs werden zum Teil seit 15 und mehr Jahren regelmäßig gecrawlt und die Inhalte archiviert. Das klingt viel und ist auch eine Riesenmenge – jedoch nur ein Ausschnitt des Internets. Auch stellt sich die Frage, wie es um die Qualität, Visualisierung und Vollständigkeit der abgegriffenen Webseiten bestellt ist. Wir haben hierfür unsere eigenen Webseiten (u.a. PROJECT-CONSULT.net, PROJECT-CONSULT.COM, PROJECT-CONSULT.de, MoReq2.de u.a.), die zum Teil in der vorangegangenen Version des Internet Archive bis 1997 zurück verfolgt werden konnten, einmal betrachtet. Dabei zeigte es sich, dass die älteren Versionen nicht mehr visualisiert werden konnten. Bei anderen liefen die Crawler ins Leere. Bei jüngeren Archivkopien liess sich nur die oberste Ebene der Navigation benutzen. Darunter liegende Ebenen und Dokumente versuchte dann das Internet Archive aus dem aktuellen Web nachzuladen. Alles in allem doch nur ein eingeschränkter Erfolg. 

Wir sind daher froh, dass wir (fast) alle unser älteren Versionen unserer Webseite im Sommer 2012 mit qumram (www.qumram.ch) archiviert haben: "PROJECT CONSULT archiviert ihre alten Webseiten" (http://bit.ly/PC-WebArchiv). In diesem Archiv sind nicht nur alle Inhalte vorhanden sondern auch mit der usprünglichen Navigation nutzbar. Wir haben im Folgenden einmal den Versuch gemacht, qumram und das Internet Archive für unsere Webseiten zu vergleichen.

Webseite____________ Internet_Archive_____________________________ qumram__________ Bewertung__________
PROJECT-CONSULT.com
1997
http://web.archive.org/web/19981202014910/
http://www.project-consult.com/
./. Internet Archive: nicht brauchbar
qumram: originäre Webseite war nicht mehr online verfügbar
PROJECT-CONSULT.net/home.asp
1999
http://web.archive.org/web/20021001091016/
http://www.project-consult.com/home.asp
http://bit.ly/PC-Web-1999 Internet Archive: nicht brauchbar
qumram: gut und vollständig
PROJECT-CONSULT.net/portal.asp
2003
http://web.archive.org/web/20050401044809/
http://www.project-consult.net/portal.asp
http://bit.ly/PC-Web-2003 Internet Archive: gut
qumram: gut und vollständig
MoReq2.de
2006
http://web.archive.org/web/20071011014743/
http://moreq.niniel.org/
http://bit.ly/PC-RM-2006 Internet Archive. gut
qumram: gut und vollständig
PROJECT CONSULT Newsletter
2007
http://web.archive.org/web/20070331210959/
http://pcnewsletter.coextant.info
/
http://bit.ly/PC-News-2007 Internet Archive: gut
qumram; gut und vollständiger
PROJECT-CONSULT.com
2010
http://web.archive.org/web/20110129030017/
http://www.project-consult.de/ecm/
./. Internet Archive: nicht brauchbar
qumram: nicht archiviert da online
PROJECT-CONSULT.de
2012
http://web.archive.org/web/20120529084908/
http://www.project-consult.de/ecm/
./. Internet Archive: gut
qumram: nicht archiviert da online

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Beim Vergleich sind die beiden verschiedenen Ansätze zu differenzieren:

Das Internet Archive macht im Prinzip Schnappschüsse, Momentaufnahmen, die den Zustand zum Zeitpunkt des Besuches des Crawlers dokumentieren. So sind auch Informationen verfügbar, die zu einem späteren Zeitpunkt entfernt worden sind. Je nach Häufigkeit des Crawlerbesuches und der Änderung der Webseiteninhalte gibt es so Lücken wie auch Überschneidungen im Inhalt. Eine Steuerung des Besuches und die Sicherstellung der Vollständigkeit des Crawlens ist nicht gegeben.

Bei den Beispielen von PROJECT CONSULT wurde mit dem qumram Crawler der letzte Online-Zustand der Webseiten dokumentiert. Dies schloss alle zu diesem Zeitpunkt erreichbaren Informationen und Unterseiten ein. Anders als beim Internet Archive wurden allerdings nicht mehr vorhandene Inhalte oder in der Navigation nicht mehr erreichbare Seiten nicht dokumentiert. Diese finden sich teilweise, jedoch nicht systematisch, im Internet Archive. Durch die individuelle Anpassbarkeit des qumram Crawlers konnte aber die vollständige Nutzbarkeit der usprünglichen Seiten mit Navigation und (mit Einschränkungen) auch Suche umgesetzt werden. Zeitpunkte und Vollständigkeit sind hier kontrollierbar. Dies ist besonders dann wichtig, wenn es um die Transaktionsarchivierung und Aufbewahrung von temporären geschäftlichen Informationen geht, die mit dem Internet Archive nicht dokumentiert werden können. 

Der Vergleich in den letzten beiden Zeilen der Tabelle "hinkt", da bisher noch kein sich dynamisch aktualisierendes und Zwischenstände historisierendes Web-Archiv mit qumram eingerichtet wurde. Hier lässt sich nur das Internet Archive mit Momentaufnahmen nutzen, die allerdings nicht immer das Aussehen, die Navigation und die Inhalte korrekt wiedergeben.

Das öffentliche Internet Archive und die auf die eigene Web-Präsenz bezogene Archivierung mit qumram stellen so zwei unterschiedliche Szenarien der Web-Archivierung dar. Vollständigkeit und Nachvollziehbarkeit kann nur mit qumram erreicht werden, wobei man sich allerdings um das Verfügbarhalten der Webseite selbst kümmern muss. Das Internet Archive dagegen macht erratisch Momentaufnahmen des Internets mit dem Anspruch, möglichst viel zu erfassen. Bereitgestellt wird dieses öffentliche Archiv von einer Community, die von Unternehmen gesponsert wird.

Dr. Ulrich Kampffmeyer

Curriculum auf Wikipedia https://de.wikipedia.org/wiki/Ulrich_Kampffmeyer

Ein Kommentar zu “Internet Archive nun mit über 240000000000 URLs

  • Vergleich zwischen Internet Archive und qumram
    25. Januar 2013 um 13:43
    Permalink

    Besten Dank für diese Gegenüberstellung! Das hat uns bei qumram sehr gefreut!

    Wie im Artikel beschrieben stellen die beiden Lösungen unterschiedliche Szenarien der Web-Archivierung dar. Sie unterscheiden sich damit auch deutlich bezüglich ihrer Zielgruppen:

    Das Internet Archive (http://archive.org) ist ein global verfügbares Nachschlagwerk für jedermann (mit Internet-Zugriff). Der Aufzeichnungszeitpunkt einer spezifischen Website wird durch das Internet Archive bestimmt und dabei nimmt der Crawler einfach diejenigen Informationen mit, die er erreicht. Der Informationsgehalt eines so generierten Schnappschusses hängt also davon ab, ob der Crawler grundsätzlich in der Lage ist, eine Information beim jeweiligen Crawling-Durchgang zu erfassen. Dabei ist auch zu berücksichtigen, dass die Informationen grundsätzlich im öffentlichen Internet erreichbar sein müssen, damit sie überhaupt erfasst werden können. Informationen in einer internen Zone oder auch in einer Closed User Group werden damit im global verfügbaren Internet Archive nicht aufbewahrt, was auch sinnvoll ist. Denn wie eingangs erwähnt ist das Zielpublikum hier die breite Öffentlichkeit, welche Interesse an der Bewahrung der Internet-Zeitgeschichte hat.

    Die Nutzer bzw. Kunden von qumram (http://www.qumram.ch) dagegen sind einzelne Organisationen, welche das Bedürfnis bzw. die Auflagen haben, Internet-Informationen aufzubewahren. Dabei soll es keinerlei Einschränkungen geben, ob es sich um statische, dynamische oder interaktive Informationen oder immer mehr auch um Transaktionen handelt. Es soll auch nicht darauf ankommen, wo diese Informationen publiziert sind, auf der eigenen Website, einem Blog, einem Extranetportal oder auch im internen SharePoint. Die Nutzer wollen selbständig bestimmen, wann diese Informationen aufgezeichnet werden (zeit- oder event-gesteuert, bzw. auch kontinuierlich), sie wollen die volle Freiheit haben zu definieren, welche (Arten von) Informationen sie aufzeichnen und aufbewahren, und sie wollen auch selber festlegen, wo die Informationen gespeichert sind (interne Ablage wie DB, File-System oder auch elektronisches Archiv, bzw. in der Cloud) und wer darauf zugreifen darf. All das ist beim Internet Archive nicht möglich. qumram hingegen ist genau auf solche Anforderungen ausgerichtet und lässt sich exakt gemäss den individuellen Anforderungen konfigurieren. Die originalgetreue Bewahrung der “User Experience” einer spezifischen Website (Surf-Verhalten und Informationsgehalt) sowie die rechtssichere Behandlung von Web-Informationen einer Organisation ist nur mit qumram möglich.

    Das Internet Archive existiert seit mehr als 15 Jahren und hat in dieser Zeit eine unglaubliche Anzahl von Websites aufgezeichnet und weiterhin abrufbar gemacht. Das ist eine riesige Leistung. Es ist aber auch kein Hehl, dass die dabei eingesetzten Technologien (Heritrix, Wayback Machine) schon ein wenig in die Jahre gekommen sind und sich mit dem Web 2.0 und seinen Möglichkeiten eher schwer tun. qumram ist ein Kind dieses Jahrzehnts, wurde also voll ins 2.0-Zeitalter hineingeboren und unterstützt die entsprechenden Ansätze und Technologien vollumfänglich.

    Antwort

Neuen Kommentar verfassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Ich stimme zu, dass die von mir eingegebenen Daten einschließlich der personenbezogenen Daten an PROJECT CONSULT übermittelt und dort zur Prüfung der Freischaltung meines Kommentars verwendet werden. Bei Veröffentlichung meines Kommentars wird mein Name, jedoch nicht meine E-Mail und meine Webseite, angezeigt. Die Anzeige des Namens ist notwendig, um eine individuelle persönliche Kommunikation zu meinem Beitrag zu ermöglichen. Anonyme oder mit falschen Angaben eingereichte Kommentare werden nicht veröffentlicht. Zu Nutzung, Speicherung und Löschung meiner Daten habe die Datenschutzerklärung zur Kenntnis genommen.

Ich versichere, alle gültigen Vorgaben des Urheberrechts beachtet zu haben. Ich habe keine Bilder, Grafiken, Texte oder Links in meinem Beitrag verwendet, die durch CopyRight, Leistungsschutzrecht oder Urheberrecht geschützt sind. Für den Inhalt meines Kommentars bin ich trotz Prüfung und Freischaltung durch PROJECT CONSULT ausschließlich selbst verantwortlich. Meine Rechte am Beitrag werden bei PROJECT CONSULT nur durch die CC Creative Commons by-nc-nd Vorgaben gewahrt.