Herausforderung für das Scannen in der Cloud: Amazon Textract
5. Dezember 2018 08:58 Uhr | Dr. Ulrich Kampffmeyer | Permalink
Eigentlich ist es ja nur eine API und ein Dienst in der Cloud, der aus Amazons weitem Portfolio neuer Entwicklungen stammt. Es geht um die Texterkennung aus gescannten Dokumenten. Bisher ein klassisches Geschäft für Inhouse-Lösungen und Dienstleister. Nun kommt Amazon mit einer Lösung in der Cloud, in die man hineingescannt und ausgewertete OCR/ICR-Ergebnisse zurückerhält. Eigentlich nichts Aufregendes, wäre da nicht der Preis: 1,50 $US für 1000 Seiten.
Textract (http://bit.ly/amazontextract) markiert einen Paradigmenwechsel. Technologie, die bisher nur teuer für Unternehmen verfügbar war, wird zum Allgemeingut. Die Funktionalität und der Preis sind eine Kampfansage an die ECM-Branche.
Textract extrahiert Daten mit hoher Genauigkeit. Mit jedem neuen Dokument wird die Lösung sicherer. Daher ist der geringe Preis auch nur ein Anreiz, die selbstlernende und selbstoptimierende KI-Lösung mit Lern- und Textmaterial zu füttern. Sie gleichermaßen für Fließtext wie auch für – gut designte – Formulare geeignet. Layouts und Feldinhalte werden erkannt und extrahiert. Die Ergebnisse können einfach über die API in Anwendungen und Datenbanken integriert werden. Es ist nicht notwendig, selbst zu programmieren, Vorlagen oder Bildschirmformulare zu entwickeln. Amazon weist darauf hin, dass die sehr gute Qualität auf bereits millionenfach ausgewerteten Dokumenten basiert – deren Inhalt dann aber von Amazon verarbeitet werden (und gespeichert werden?). Das ist der Pferdefuss des Angebotes. Auch wenn dieses adhoc beauftragt und wieder gekündigt werden kann, da es keine vertragliche Laufzeitbindung gibt.
Es wird spannend, wie die ECM-Branche auf diese Herausforderung reagiert. Gute Qualität zu Low Cost. Auch kann man ja dann die Daten und die Dokumente auch gleich in der Amazon-Cloud für wenig Geld lassen. zumindest ein Anbieter denkt schon in diese Richtung (und kündigt neue Features schon an): Microsoft. Auch im Umfeld von Office365 und Sharepoint wird es mehr Funktionalität für das Records Management und die automatische Klassifikation in 2019 geben.
Nix Neues?!
Ich persönlich bleibe dabei, dass die Zeit der monolithischen Lösungen (ja, auch wir haben eine) in den nächsten Jahren abläuft und durch Services in der Cloud ersetzt werden. Die Lösungen für die Kunden werden somit aus Best-of-Breed Services bestehen und Daten zwischen Lösungen automatisiert austauschen (Siehe z.B IFTTT, Zapier). AWS ist, neben z.B. auch Azure, eine Entwicklungsplattform für passende Services. Soweit so gut. Ein paar Punkte zum Beitrag …
Scannen in der Cloud ist jetzt keine Überraschung, sondern doch schon fast alt, oder?
Wir sollten dazu das Thema des Preises einmal schärfen. Die Lösung beginnt mit $1,50 für 1.000 Dokumente. Für die Erkennung von Texten, Tabellen und Formularfeldern liegen wir bei $65 für 1.000 Seiten. Das sind bei 1 Mio Dateien $65,000 und dafür gibt es bereits vollständige ECM Lösungen inklusive OCR ohne Seitenlimits. Dazu kommen bereits zahlreiche Online OCR Anbieter, die diese Leistungen deutlich günstiger anbieten. Entscheidend für mich als Anbieter ist eher die Qualität und die konnte ich noch nicht prüfen. Jeder schreit aktuell “KI” – wie wirkt sich das wirklich auf die Erkennungsqualität aus, insbesondere im Vergleich zu bekannten Cloud-OCR Lösungen, wie von Abbyy, die dasselbe versprechen?
Selbstverständlich bliebt die gerade in Deutschland begehrte Frage offen, wie sicher der Umgang mit den Daten im AWS aus Sicht des Datenschutzes ist. Eine “KI” bedeutet auch, dass ggf. Fragmente der Dokumente für eine Optimierung späterer Prozesse abgelegt werden – unabhängig ob das gesamte Dokument dazu Datenschutzkonform gelöscht wird.
Die Aussage des Beitrags war ja: “Es wird spannend, wie die ECM-Branche auf diese Herausforderung reagiert”. Das ist ja alles unser tägliches Brot. In Deutschland leider noch hauptsächlich “On Premise”, was uns im Einsatz von hochleistungsfähigen Cloudservices eher hindert. Die meisten Anbieter, wie wir, stellen Lösungen (ECM, EIM, etc) zudem bereits erfolgreich in der Cloud an, inklusive Services für die Interaktion mit anderen Lösungen. Ich sehe hier also als Anbieter keinen neuen Handlungsbedarf. Wenn die Qualität und der Datenschutz gewährleistet sind, ist die Lösung von Amazon also sicher eine interessante Ergänzung im Markt – löst aber sicher bei keinem ECM Anbieter hektisches Zucken aus 🙂
Und was “Auch im Umfeld von Office365 und Sharepoint wird es mehr Funktionalität für das Records Management und die automatische Klassifikation in 2019 geben” anbelangt … da bin ich mal sehr gespannt, was da kommt. Grundsätzlich haben alle großen internationalen Player, wie Amazon, Google, Microsoft, mit den bestehenden Ressourcen in Personal, Kapital, Know How und Marktpräsenz die Option, jeden ECM Anbieter zu zerschlagen. Das schon seit 20 Jahren. Anders herum: Ich würde es von einem Anbieter wie Microsoft verpflichtend erwarten, diese Funktionen anzubieten. Einen Durchbruch hab ich hier bislang aber nicht gesehen. Dabei wäre es so naheliegend. Und Sharepoint ist ohne externe Tools und aufwendige Ergänzungsentwicklung bis heute kein “richtiges” ECM, was die Anwender für ihre tägliche Arbeit zur Automatisierung und Einhaltung der zahlrechen Rechtssprechungen bräuchten.
Amazon Textract nicht ernstzunehmen?
Lieber Jens,
vielen Dank für Deine Antwort “Nix Neues!”.
Ich sprach in meinem Post von einer Herausforderung. Und ich sehe dies so. Das liegt einmal an der Marktmacht von Amazon aber mehr noch an AWS als Plattform. Entscheidend werden die Softwarelösungen sein, die die Extraction und Klassifikation von Textract zukünftig als Dienst nutzen. Die Konkurrenz erwächst dann mit Cloud-Lösungen auf der AWS mit elektronischen Akten, Rechnungseingangsverarbeitung, Vertragsmanagement und Vorgangsbearbeitung. Ausschlaggebend wird auch die Qualität der Extraktion, weniger das OCR/ICR-Ergebnis, mehr noch die Klassifikation und Aufbereitung der Inhalte werden. Auch hier breitet sich Amazon mit Lösungen zum Speichermanagement, zur Datensicherung, zur Aufbewahrung und Archivierung an. Es wird sich vieles mehr und mehr in Richtung Cloud verlagern. Da hast Du recht.
Das Problem sind die alten Architekturen der On-Premise-Lösungen. So etwas einfach in die Cloud zu kippen, hilft nicht (habe ich schon vor über 10 Jahren dargelegt!).
Und wenn wir jetzt über Services und Micro-Services sprechen, dann ist natürlich eine Plattform wie Amazon sehr zugkräftig für Entwickler und Anwender. Allein schon weltweite Verfügbarkeit und unbegrenzte Skalierbarkeit werden hier die Musik machen. Und Du weißt, wenn einer loslegt, ziehen die anderen Großen schnell nach. Der jetzige Angriff von Amazon wird traditionelle Anbieter wie Kofax, Nuance, Abbyy und die vielen anderen kleinen als erstes treffen. Aber auch Microsoft. Wenig bekannt ist, dass auch Microsoft die OCR-Wandlung als Dienst aus der Cloud anbietet, nur hat Microsoft nicht so getrommelt wie Amazon. Alle suchen hier Anwendungen für ihre KI- und Automatisierungslösungen. Da bietet sich jetzt mit einem Mal auch dieses traditionelle Marktsegment an. Es geht ja auch nicht nur ums Scannen – auch E-Mail, PDFs und andere Dokumentformate harren einer guten Klassifikation und Einordnung in Klassifikationsschema wie elektronischen Akten. In unserem Update Information Management 2019 werde ich zu solchen sich selbst installierenden und konfigurierenden No-Code-Anwendungen auch etwas sagen (ansonsten siehe meinen Ausblick https://www.slideshare.net/DRUKFF/de-digitalisierung-information-management-ulrich-kampffmeyer-eim-informationstag-2017 ab Folie 84 weiter hinten …).
Auch Branchenkenner, mit denen ich kommuniziert habe, sehen Textract als Herausforderung für die Branche … wenn denn die Extraktion und besonders die Klassifikation und Informationsübergabe sehr gut sind und sich einfach in andere Anwendungen integrieren lassen.
Schöne Grüße,
Uli