2,8 ZettaByte an Informationszuwachs 2012

13. Dezember 2012 10:48 Uhr  |  Dr. Ulrich Kampffmeyer  |  Permalink


SPIEGEL Online berichtet in seinem Artikel "2.800.000.000.000.000.000.000 Byte | Das digitale Universum schwillt an" über das exponentielle, unkontrollierte Wachstum an Information: "Das Internet der Dinge erzeugt 2.8 Zettabyte Daten". 

Zunächst einmal zu dieser gigantischen Zahl mit 21 Nullen. Eine kleine Recherche in Wikipedia bringt zu Tage:
Ein ZettaByte ist eineTrilliarde, 2,8 ZettaByte also 2,8 Trilliarden. Zetta ist ein Präfix für eine Maßeinheit und wird gar nicht mit Zahlennamen verbunden. Bleibt man im digitalen System der Bytes müßte es genaugenommen "ZebiByte" heißen (das sind auch gleich noch ein paar Bits mehr …):
Zettabyte (ZB) 1021 Byte = 1.000.000.000.000.000.000.000 Byte || Zebibyte (ZiB) 270 Byte = 1.180.591.620.717.411.303.424 Byte (also 18,1 % mehr als Zetta). Quellen:
Binärpräfix (http://de.wikipedia.org/wiki/Bin%C3%A4rpr%C3%A4fix)
Vorsätze für Maßeinheiten (http://de.wikipedia.org/wiki/Vors%C3%A4tze_f%C3%BCr_Ma%C3%9Feinheiten)
Zahlennamen (http://de.wikipedia.org/wiki/Zahlennamen)
In der Diskussion auf Facebook http://on.fb.me/XSboPi gibt es noch ein paar schöne Umrechungen der 2.8 ZettaBytes in iPads, in Bücher, in abzuholzende Wälder.

Zurück zum SPON-Artikel: "Das Internet der Dinge erzeugt 2.8 Zettabyte Daten" – http://bit.ly/UDiKRF – "Experten schätzen das im Jahr 2012 erzeugte Datenvolumen auf unvorstellbare 2,8 Zettabyte. Verantwortlich für die Datenflut sind die vielen vernetzten Geräte und der Boom in den Schwellenländern. Manchem bereitet dieses Wachstum Sorgen."

Der Satz "Manchem bereitet dieses Wachstum Sorgen" ist dabei der reinste Hohn – alle sollten sich Gedanken machen. Der Artikel des SPON basiert auf einer Studie von EMC, einem der führenden Anbieter von Storage-Systemen. Und natürlich wird es genügend Speicher geben. Aber das ist nicht das Problem, sondern die Erschließung, Nutzung und Handhabung der Informationen – oder wie die Trendauguren sagen, das Management von BigData.

In der IDC/EMCStudie "The Digital Universe" ( http://bit.ly/the-digital-universe ) werden die Hintergründe näher erläutert. In jährlichem Rythmus wird die aktuelle Entwicklung des Informationswachstum beleuchtet. IDC geht davon aus, dass sich die Datenmengen, die innerhalb eines Jahres erstellt, vervielfältigt und konsumiert werden, bis 2020 alle zwei Jahre verdoppeln. Der "digitale Schatten", d.h. die automatisch generierten Daten über einem Nutzer, die dieser nicht selbst erzeugt hat, übersteigen inzwischen die selbst geschaffen Daten. Auch geografisch verändert sich die Landschaft. China udn Asien generell schieben sich in den Vordergrund, sind aber aus unserer Wahrnehmung ausgeblendet, da man nur noch Teilbereiche des Internets zu Gesicht bekommt. ECM ist der Überzeugung, dass allein Cloud das Informationswachstum abfangen kann.  

Ohne unserer Update-Veranstaltung (Hamburg http://bit.ly/EIM13-HH, Frankfurt http://bit.ly/EIM13-F, München http://bit.ly/EIM13-M) vorgreifen zu wollen hier ein paar persönliche Anmerkungen zum Thema:

Wann ist Data Bigdata? Wie wird überhaupt BigData definiert? In vielen Anwenderorganisationen wachsen die kaufmännischen Daten nur leicht und auch das Wachstum an E-Mails, Office-Dokumenten, Media-Objekten etc. erscheint beberrschbar. Für diese Organisationen und Unternehmen klingt "BigData" nur nach einem neuen Hype. Ist Bigdata 1 TeraByte, 100 TeraByte, 1 PetaByte? Und von was … Datensätze, Dokumente, Videos?

Im SPON-Artikel wurde lediglich oberflächlich die Zahlen des Storage-Anbieters EMC reflektiert. Da ging es auch weniger um die Erschließung der Information denn die Frage "wird es immer genügend Speicher geben". Betrachtet man jedoch die Themen Erschließung und Nutzung, muss man ganz andere Ansätze verfolgen und auch besser differenzieren.

Der SPON-Artikel und die IDC-Studie heben vorrangig auf das Wachstum von automatisch generierten Daten ab, die auch nicht erzeugt werden, damit ein Mensch sie liest. Es sind Protokolle, Nutzdaten und Schatteninformationen, die die Datenspeicher auch nur bestimmter Unternehmen und Organisationen füllen und die kontinuierlich Daten liefern und auch kontinuierlich wachsen. Hier kommt die Frage zum Tragen, wie wertet man diese Daten aus, um daraus einen wirtschaftlichen Nutzen zu ziehen, z.B. Kaufverhalten zu erkennen und zu beeinflussen, regionale Geo-Informationen Ziel- und Profil-genau zuzuordnen, Trends für Preiskalkululation und Produktentwicklung zu extrahieren etc. Hier bedarf es erweiterter und neuer Analyse-Werkzeuge, da herkömmliche Datenbank- und Statistik-Werkzeuge vor den Datenbergen resignieren.

Das zweite Schlachtfeld unkontrollierten Wachstums von Information außerhalb der Unternehmen im Web findet sich bei Videos, Fotos, Tweets und Social Media. Hier ist auch der Wachstumtrend der Entwicklunsgländer – wie vom SPON postuliert – einzuodnen.  Diese Informationen werden von Menschen für Menschen generiert, auch wenn dies inzwischen fast automatisch passiert z.B. beim Teilen oder Fotos hochladen. Hier tragen zum Wachstum unkontrollierte Redundanz und immer voluminösere Objekte in verqueren Formaten bei. Es existieren auch wenig (oder keine) Steuerungsmechanismen, da die Nutzung individuell von Menschen und Menschengruppen abhängt. Medienbefeurte Hypes tragen ihr Scherflein saisonal und regional bei. Das Wachstum wird sich hier nicht eindämmen lassen. Allerdings würde man bei diesem Themenbereich weniger von "BigData" als denn von "BigContent" sprechen, da es sich vielfach um unstrukturierte Informationen handelt.

Eigentich hat Enterprise Content Management die Aufgabe, große unstrukturierte Mengen von Informatione zu verwalten – aber ECM versagt bei BigData. Beide oben genannten Wachstumsbereiche waren nie so richtig Thema von ECM Enterpreise Content Management, auch wenn die Archivierung diese Themen addressieren muss. Zwei der Gründe sind die herkömmliche Architektur von Lösungen, die für die Verwaltung von Informationen Standard-Datenbanken benutzt und das Fehlen von geeigneten Auswertungswerkzeugen für die Aufbereitung großer Inforamtionsmengen. 

Bleibt der für das Thema ECM & BigData (oder EIM Enterprise Information Management) – der Begriffsbestandteil "Enterprise" differenziert hier – interessante Bereich des Informationswachstums in den Unternehmen und Organisationen intern. Auch hier gibt es ein starkes Wachstum, allerdings nicht mit den obigen beiden Bereichen zu vergleichen (es sei denn man ist Telekommunikations-, Suchmaschinen-, SocialCommunity-, Geodaten- oder ähnlicher Anbieter – dann sind die Daten das eigentliche Wirtschaftsgut des Unternehmens und davon kann man nie genug haben). Im Unternehmen wachsen mäßig die strukturierten Daten in ERP- CRM-, Datenbank- und Fachanwendungssystemen. Stürmischer ist das Wachstum bei unstrukturierten oder schwach-strukturierten Informationen wie E-Mail, Office, Groupware, Media. Hier geht es nun wirklich beim Begriff "Bigdata" um "Wein in neuen Schläuchen".

Für genau diese Probleme gibt es ECM – oder EIM, um den Geltungsbereich der aktuellen Situation besser anzupassen. Für alle Bereiche gibt es aber eine grundsätzliche Strategie – kontrolliert, Compliance- und nutzungsgerecht Löschen! Für Informationen im Unternehmen gibt es daher Records Management und eine der wichtigsten Funktionen von Records Management ist "Deletion" (die aber am wenigsten genutzt wird  ). Hier kann jedes Unternehmen und jede Organisation für sich selbst die richtige Strategie zur Informationsbeherrschung ("Information Governance") formulieren und umsetzen. Grundlage für den Erfolg wird aber die Disziplin und das Verantwortungsbewußtsein der Mitarbeiter sein.

Im offenen Web gibt es keine Kontrolle (und es sollten auch die restriktiven Ideen der Nationalstaaten beim WCIT der ITU nicht umgesetzt werden!). Hier werden wir mit einem weiteren Wachstum und den ersten Crashs (z.B. bei den ersten 3D-Film-Downloads, freiem Zugang zu Bibliotheken usw.) leben müssen. Die bereits laufende Segmentierung des Webs (wir sehen nur noch einen Bruchteil) vertuscht nicht nur die Situation sondern entschärft auch das Transport-Thema. Bei den im SPON-Artikel erwähnten Massendaten aus der Kommunikation, den mobilen Geräten, dem Ubiquitous Computing, dem Internet-der-Dinge, den immer mehr Datengenerierern im öffentlichen Raum, zu Hause, im Unternehmen, der wahren Flut … da kann man regulativ sowieso nichts erreichen, da hilft auch kein EIM, keine Disziplin … da muss erst alles in die Knie gehen, da müssen wir an den Daten erst einmal ersticken!

 

Dr. Ulrich Kampffmeyer

Curriculum auf Wikipedia https://de.wikipedia.org/wiki/Ulrich_Kampffmeyer

2 Kommentare zu “2,8 ZettaByte an Informationszuwachs 2012

    • Big Data Hype?
      15. Dezember 2012 um 9:50
      Permalink

      Sehr gute Reflektion von Uli Kampffmeyer.
      Big Data ist sicherlich auch ein Hype Thema, forciert von Storage und Cloud Anbietern, auch durch Undiszipliniertheit der Nutzer und Unternehmen, Unsicherheit was wirklich sinnvoll gespeichert bzw. Aufbewahrt werden muß.
      Das Nutzerverhalten trägt wesentlich zum Datenwachstum bei: Daten werden zunehmend zig-fach redundant gehalten, privat in in Dropbox Clouds, Evernotes, skydrives, Iclouds, privaten Clouds etc. In Unternehmen werden ungezähmt Daten gesammelt: redundante Emails, Chats, Dateien, Logprotokolle, Bilder, Videos, vermutlich alles noch demnächst in 3D und Farbe.
      Im Nachgang zu Big Data Hype müssen wir uns wieder mehr Gedanken um das Einbremsen der Datenflut machen – das sinnvoll Notwendige- und die Müllentsorgung von Big Data. Parallelen zum Wachstum des Energieverbrauchs und der ökologischen Vernunft sind auch für Big Data zu vermuten.
      Brauchen wir ein ATTAC Denken oder reicht schon ein ausgefeilteres Records Management?

      Antwort

Neuen Kommentar verfassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Ich stimme zu, dass die von mir eingegebenen Daten einschließlich der personenbezogenen Daten an PROJECT CONSULT übermittelt und dort zur Prüfung der Freischaltung meines Kommentars verwendet werden. Bei Veröffentlichung meines Kommentars wird mein Name, jedoch nicht meine E-Mail und meine Webseite, angezeigt. Die Anzeige des Namens ist notwendig, um eine individuelle persönliche Kommunikation zu meinem Beitrag zu ermöglichen. Anonyme oder mit falschen Angaben eingereichte Kommentare werden nicht veröffentlicht. Zu Nutzung, Speicherung und Löschung meiner Daten habe die Datenschutzerklärung zur Kenntnis genommen.

Ich versichere, alle gültigen Vorgaben des Urheberrechts beachtet zu haben. Ich habe keine Bilder, Grafiken, Texte oder Links in meinem Beitrag verwendet, die durch CopyRight, Leistungsschutzrecht oder Urheberrecht geschützt sind. Für den Inhalt meines Kommentars bin ich trotz Prüfung und Freischaltung durch PROJECT CONSULT ausschließlich selbst verantwortlich. Meine Rechte am Beitrag werden bei PROJECT CONSULT nur durch die CC Creative Commons by-nc-nd Vorgaben gewahrt.