Das Internet und das große Vergessen

27. September 2012 14:25 Uhr | Dr. Ulrich Kampffmeyer | Permalink

Oscar Berg schrieb 2010: "Nothing is deleted, ever". Dieser Meinung schließt sich eine Studie, die aktuell diskutiert wird, nicht an: "Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost?". Hier wird postuliert, dass das Internet schnell und zu schnell vergisst.

Die Studie von Hany M. Salah Eldeen and Michael L. Nelson, die auf der "Conference on Theory and Practice of Digital Libraries" in Zypern vorgestellt wurde, fasst die Ergebnisse wie folgt im "Abstract" zusammen:

"Social media content has grown exponentially in the recent years and the role of social media has evolved from just narrating life events to actually shaping them. In this paper we explore how many resources shared in social media are still available on the live web or in public web archives. By analyzing six dierent event-centric datasets of resources shared in social media in the period from June 2009 to March 2012, we found about 11% lost and 20% archived after just a year and an average of 27% lost and 41% archived after two and a half years. Furthermore, we found a nearly linear relationship between time of sharing of the resource and the percentage lost, with a slightly less linear relationship between time of sharing and archiving coverage of the resource. From this model we conclude that after the rst year of publishing, nearly 11% of shared resources will be lost and after that we will continue to lose 0.02% per day."

Die Studie wurde bereits vorab publik gemacht und ist auch in der Presse gleich aufgegriffen worden – hier nur einmal SPIEGEL und ZEIT:

SPIEGEL online 22.09.2012: Studie zur Web-Haltbarkeit – Das Netz vergisst schnell – Konrad Lischka: http://bit.ly/Prpdg4 ; unser Kommentar

"Das Internet vergisst nie? Von wegen. Das Web ist ein extrem flüchtiges Medium – binnen zweieinhalb Jahren ist ein Viertel der wichtigen Online-Quellen zum Arabischen Frühling, dem Schweinegrippe-Ausbruch und Michael Jacksons Tod wieder verschwunden.

Wenn Historiker in 30 Jahren versuchen sollten, die Reaktion auf den Arabischen Frühling im Web zu analysieren, werden sie vor einem Problem stehen: Viele Quellen im Web dürften verschwunden sein. Das Internet vergisst eben doch, und zwar erstaunlich schnell. Einer Studie der US-Informatiker Hany M. SalahEldeen und Michael L. Nelson von der Old Dominion University zufolge ist heute bereits ein Viertel der 2009 in ausgewählten Tweets verlinkten Quellen zum Aufstand in Ägypten nicht mehr abrufbar. Die Wissenschaftler haben mehr als 11.000 Links in Tweets zu sechs Großereignissen der Jahre 2009 bis 2012 untersucht. Ihr Ergebnis: Mitte 2012 war gut ein Viertel der 2009 in den ausgewählten Tweets verlinkten Quellen ist nicht mehr abrufbar. Immerhin sieben Prozent der im März 2012 auf Twitter empfohlenen und verlinkten Quellen war nicht mehr erreichbar. Es geht dabei um Videos bei YouTube, Fotos bei Twitpic und Yfrog, Artikel in US-Medien und Blog-Einträge auf WordPress.com – allesamt zeitgeschichtliche Dokumente, zum Teil wohl auch Primärquellen, wie zum Beispiel Videos aus Ägypten."

ZEIT online 27.09.2012: DIGITALES GEDÄCHTNIS – Das Netz vergisst doch – Inge Kutter: http://bit.ly/Qe7F6B ; unser Kommentar

"Täglich gehen im Internet wichtige Daten verloren – leider nur nicht jene, auf die wir gerne verzichten würden.

Als Mantra aller Internetaufklärer gilt der Satz »Das Netz vergisst nie!« Diese Mahnung lässt so manchen Finger vor der Enter-Taste innehalten: Soll man dieses Foto wirklich hochladen, jenes Posting tatsächlich senden? Oder wird man sich später für das schämen, was man heute unbedacht preisgibt? Schließlich gilt das Internet als weltweites digitales Gedächtnis, das einmal gewonnene Informationen bis in alle Ewigkeit speichert. Um den alles aufsaugenden Datenschwamm zum Vergessen zu bewegen, wurden schon verschiedenste Methoden ersonnen. Der Netzpolitikexperte Viktor Mayer-Schönberger propagierte 2009 ein Verfallsdatum für Informationen im Netz, mit dem sich Daten nach einer gewissen Zeit von alleine wieder löschen. Dieses »Recht auf Vergessenwerden« hat in den Entwurf der Datenschutzreform Einzug gehalten, den EU-Institutionen derzeit beraten: Betreiber Sozialer Onlinenetzwerke, die die Daten ihrer Kunden trotz deren Aufforderung nicht löschen, müssten demnach künftig Bußgelder zahlen. Parallel dazu hat ein IT-Professor an der Universität des Saarlands eine Art digitalen Radiergummi entwickelt, den die Verbraucherschutzministerin Ilse Aigner in den höchsten Tönen lobt. Das Firefox-Plug-in X-Pire sorgt dafür, dass entsprechend codierte Bilder nur für einen bestimmten Zeitraum angezeigt werden und sich danach quasi selbst vernichten. Doch nun legt eine neue Studie nahe, dass all das gar nicht nötig sein könnte: Den Informatikern Hany M. SalahEldeen und Michael L. Nelson zufolge verschwinden Onlinequellen sehr viel schneller als bisher angenommen. Das Netz vergisst sehr wohl, könnte man ihre Untersuchung zusammenfassen, die sie in dieser Woche bei der Conference on Theory and Practice of Digital Libraries in Zypern vorstellen. Für ihre Studie hatten die Informatiker der amerikanischen Old Dominion University insgesamt 11.000 Links untersucht, die zu Großereignissen in den Jahren 2009 bis 2011 getwittert wurden: zu Michael Jacksons Tod und zum Ausbruch des Virus H1N1, zur Vergabe des Friedensnobelpreises an Barack Obama und zu den Wahlen im Iran, zur Revolution in Ägypten und zum Aufstand in Syrien. Die Links führten zu YouTube-Videos, Medienartikeln und Blogs, zu Fotos bei Twitpic und anderen Diensten. Dabei zeigte sich, dass längst nicht mehr alles Material auffindbar war. Bereits nach einem Jahr waren rund 11 Prozent der Quellen verschwunden, nach zweieinhalb Jahren fehlten 27 Prozent, stellten die Forscher fest. Im Gegenzug prüften SalahEldeen und Nelson, wie viel Material von Web-Archiven gespeichert worden war. Dazu nutzten sie Memento, einen von der US-Kongressbibliothek finanzierten Onlinedienst, der zahlreichen Archiven die Speicherung von Web-Vergangenheit ermöglicht. Innerhalb eines Jahres waren magere 20 Prozent der Quellen archiviert worden, nach zweieinhalb Jahren waren es gerade mal 41 Prozent."

Die Frage ist, wie begegnet man dem Vergessen im Web?

Welchen Wert hat die Information im Internet – aus wirtschaftlicher Sicht, aus historischer Sicht, aus gesellschaftlicher Sicht? Es geht auch um die Bewahrung der gerade stattfindenden kulturellen Veränderung, wo sich alles ins Virtuelle, ins Web begibt. So dürfen auch nicht mehr einzelne Inhalte unter archivischen Gesichtspunkten betrachtet werden sondern das Internet als Gesamtphänomen. Und so kann auch Spam zu kultureller Bedeutung kommen.

Ist die Bewahrung des WIssens im Internet mit internationalen, global ausgerichteten Initiativen zu bewerkstelligen (z.B. Internet Archive, EU Projekte … alles nur ein Tropfen auf den heißen Stein …), müssen endlich die großen Software-, System- und Internet-Anbieter zur Kasse gebeten werden (die uns das Problem mit schlechter Software eingebrockt haben, die eigentlich eine Archivierung von Inhalten nicht vorsieht … http://www.project-consult.de/ecm/in_der_diskussion/world_digital_archive_foundation) oder muss mehr Verantwortung bei denjenigen erzeugt werden, die Information ins Internet stellen (bei Organisationen und Firmen vielleicht denkbar, aber beim Spass- und Kommunikations-Web-2.0-Power-User)?

Web-Archivierung aus technisch-/organisatorischer Sicht ist seit Beginn des Internets eine offene Flanke – dies habe ich schon vor 10 Jahren bemängelt (siehe z.B. 2003 hier "Offene Flanke der elektronischen Archivierung: Websites und Webtransaktionen" http://bit.ly/lswq6W). In meiner Firma haben wir uns für den Weg der Eigenverantwortung entschieden und stellen sicher, dass jede von uns auf eigenen Webseiten veröffentlichte Information persistent verfügbar ist – seit nunmehr 16 Jahren (http://bit.ly/PC-WebArchiv). Auf große weltweite Initiativen warten wir nicht mehr, das Wachstum ist zu schnell und das Archivierungsproblem im Web verschärft sich von Stunde zu Stunde.

Zukünftige Historiker werden unsere Zeit "das dunkle Zeitalter der frühen Informationsgesellschaft" nennen. In diesem Tenor wurde das Thema Archivierung und Verantwortung der Archivare auch auf der Tagung des VSA Verband schweizerischer Archivarinnen und Archivare diskutiert: http://bit.ly/VSA-DrUKff und http://bit.ly/RXv4yh .

"The Dark Age of the Early Information Society" – für mich persönlich ist dies beruhigend, braucht man doch in Zukunft wieder Archäologen, Web Archäologen. Da bin ich mit meiner ursprünglichen Ausbildung gleich wieder gefragt!

Ulrich Kampffmeyer

Wie lange ist Langzeit?

uli

2. Januar 2013 um 10:34

Permalink

Zum Jahresauftakt etwas zum Thema Archivierung im SPIEGEL online – alte Oberflächen, alte Kommunikationsplattformen, Töne und alte Spiele. http://www.spiegel.de/netzwelt/web/zeitmaschinen-und-retro-simulatoren-im-internet-a-873938.html 
Abgesehen, dass der Artikel oberflächlich recherchiert ist, zeigt er das Problem der Sicherung der digitalen Hinterlassenschaft deutlich auf.

Nehmen wir einfach mal nur das Thema Web (und lassen die anderen Aspekte des SPIEGEL-Artikels außen vor). Bei PROJECT CONSULT hatten wir frühzeitig mit der Sicherung unserer alten Webpräsenzen begonnen und können jetzt bis 1997 lauffähig und ohne Informationsverlust zurückblicken. Da wir immer sehr wenig Bilder verwendet haben, selten Videos publizierten, keinen Ton auf den Webseiten hatten und Gerüche grundsätzlich abgeschaltet wurden, war die Archivierung nicht zu schwer 🙂 http://bit.ly/PC-WebArchiv

Allerdings waren am Morgen des 1.1.2013 unsere archivierten Seiten nicht verfügbar … da die Lizenz für die Archivierungssoftware abgelaufen war (sehe auch die Kommenrtare auf Facebook: http://on.fb.me/UEKsPH ). Da stellt sich natürlich die Frage, wie die Langzeitverfügbarkeit von archivierten Web-Informationen sichergestellt werden kann. Denn Langzeitarchivierung ist mehr als 100 Jahre!

Beim Thema Archivierung von Web-Inhalten geht man im Regelfall auf Provider um von der Verfügbarkeit der eigenen Platfform unabhängig zu sein. Dass dies allerdings auch nicht immer die Verügbarkeit sicherstellt, zeigt unser eigenes Beispiel. Nun gut, heute waren alle archivierten Seiten wieder erreichbar, aber was heißt dies letztzlich für die genrelle Frage – wie lange ist Langzeitarchivierung und wie stellt man die Verfügbarkeit von Informationen im Web sicher? Hier sind Lösungen dringend gefordert, denn durch Virtualisierung, Mobile, Cloud und andere Technologietrends wird das Thema der Verfügbarkeit von Information – aktueller wie auch "historischer" – immer wichtiger!

Antwort

2 Kommentare zu “Das Internet und das große Vergessen”

Web-Archivierung für Organisationen

Jürg Truniger
28. September 2012 um 7:03

In der Tat wird das Thema Aufbewahrung bzw. Archivierung von Internet-Informationen immer relevanter für die Organisationen: Die Unternehmens-Website bildet das wichtigste Bild der Organisation gegen aussen, immer mehr Transaktionen finden online statt (Beispiel Onlineshops) und die Erfassung und Verteilung von Wissen findet immer häufiger web-basiert statt (Beispiel Wikis im Intra- oder Extranet).
Die Herausforderung bei der Aufbewahrung dieser Art von Informationen und Transaktionen ist, dass zur deren Verwaltung eine Vielzahl von unterschiedlichen proprietären Technologien eingesetzt wird, welche in der Regel eine sehr kurze Lebensdauer von etwa 5 Jahren haben. Die diesen Technologien zugrundeliegenden Datenbank-Records lassen sich zwar archivieren, doch deren “User Experience” ist schlicht himmelweit entfernt von derjenigen einer im Browser dargestellten Webseite.
Es gibt aber auch eine sehr gute Nachricht: das Ausgabe- und Interaktionsformat einer im Browser angezeigten Webseite ist grösstenteils standardisiert: (X)HTML. Die auf diesem Format basierenden Informationen zu selektieren, zu erfassen, (mit Metadaten angereichert) zu speichern und wieder so aufzurufen, wie diese effektiv im Internet verfügbar waren, ist heute relativ einfach möglich und es gibt auch verschiedene Lösungen dafür, z. B. von qumram (www.qumram.ch), welche auch bereits von verschiedenen Organisationen wie auch PROJECT CONSULT genutzt werden.
Und wenn die Aufbewahrung von Internet-Informationen mal so gelöst ist, dass die Authentizität und Integrität dieser Informationen gesichert ist, kann auch das folgende Thema endlich angepackt werden: die Vertreibung der leidigen Medienbrüche aus dem WWW (siehe http://www.qumram.ch/wp-content/uploads/Netzwoche_2012_16_Fachartikel_Qumram_Druckfassung.pdf).
Antwort
Wie lange ist Langzeit?

uli
2. Januar 2013 um 10:34

Zum Jahresauftakt etwas zum Thema Archivierung im SPIEGEL online – alte Oberflächen, alte Kommunikationsplattformen, Töne und alte Spiele. http://www.spiegel.de/netzwelt/web/zeitmaschinen-und-retro-simulatoren-im-internet-a-873938.html 
Abgesehen, dass der Artikel oberflächlich recherchiert ist, zeigt er das Problem der Sicherung der digitalen Hinterlassenschaft deutlich auf.

Nehmen wir einfach mal nur das Thema Web (und lassen die anderen Aspekte des SPIEGEL-Artikels außen vor). Bei PROJECT CONSULT hatten wir frühzeitig mit der Sicherung unserer alten Webpräsenzen begonnen und können jetzt bis 1997 lauffähig und ohne Informationsverlust zurückblicken. Da wir immer sehr wenig Bilder verwendet haben, selten Videos publizierten, keinen Ton auf den Webseiten hatten und Gerüche grundsätzlich abgeschaltet wurden, war die Archivierung nicht zu schwer 🙂 http://bit.ly/PC-WebArchiv

Allerdings waren am Morgen des 1.1.2013 unsere archivierten Seiten nicht verfügbar … da die Lizenz für die Archivierungssoftware abgelaufen war (sehe auch die Kommenrtare auf Facebook: http://on.fb.me/UEKsPH ). Da stellt sich natürlich die Frage, wie die Langzeitverfügbarkeit von archivierten Web-Informationen sichergestellt werden kann. Denn Langzeitarchivierung ist mehr als 100 Jahre!

Beim Thema Archivierung von Web-Inhalten geht man im Regelfall auf Provider um von der Verfügbarkeit der eigenen Platfform unabhängig zu sein. Dass dies allerdings auch nicht immer die Verügbarkeit sicherstellt, zeigt unser eigenes Beispiel. Nun gut, heute waren alle archivierten Seiten wieder erreichbar, aber was heißt dies letztzlich für die genrelle Frage – wie lange ist Langzeitarchivierung und wie stellt man die Verfügbarkeit von Informationen im Web sicher? Hier sind Lösungen dringend gefordert, denn durch Virtualisierung, Mobile, Cloud und andere Technologietrends wird das Thema der Verfügbarkeit von Information – aktueller wie auch "historischer" – immer wichtiger!
Antwort

Schreibe einen Kommentar zu Jürg Truniger Antworten abbrechen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Titel *

Name *

E-Mail *

Website

Ich stimme zu, dass die von mir eingegebenen Daten einschließlich der personenbezogenen Daten an PROJECT CONSULT übermittelt und dort zur Prüfung der Freischaltung meines Kommentars verwendet werden. Bei Veröffentlichung meines Kommentars wird mein Name, jedoch nicht meine E-Mail und meine Webseite, angezeigt. Die Anzeige des Namens ist notwendig, um eine individuelle persönliche Kommunikation zu meinem Beitrag zu ermöglichen. Anonyme oder mit falschen Angaben eingereichte Kommentare werden nicht veröffentlicht. Zu Nutzung, Speicherung und Löschung meiner Daten habe die Datenschutzerklärung zur Kenntnis genommen.

Ich versichere, alle gültigen Vorgaben des Urheberrechts beachtet zu haben. Ich habe keine Bilder, Grafiken, Texte oder Links in meinem Beitrag verwendet, die durch CopyRight, Leistungsschutzrecht oder Urheberrecht geschützt sind. Für den Inhalt meines Kommentars bin ich trotz Prüfung und Freischaltung durch PROJECT CONSULT ausschließlich selbst verantwortlich. Meine Rechte am Beitrag werden bei PROJECT CONSULT nur durch die CC Creative Commons by-nc-nd Vorgaben gewahrt.