Distri-Award
– Jetzt zur Umfrage!

Suchen

Finereader 11 und die Evolution der Texterkennung ABBYY kämpft mit OCR gegen Zettelwirtschaft in der elften Runde

| Redakteur: Dr. Stefan Riedl

Das „papierlose Büro“ als Schlagwort gilt inzwischen nicht mal mehr als Fernziel, sondern eher als Beispiel für digitale Selbstüberschätzung. Trotzdem brummt die OCR-Branche (Optical Character Recognition) IT-BUSINESS sprach mit Jupp Stoepetie, Geschäftsführer ABBYY Europe, über die Gründe.

Firmen zum Thema

Die Verwandlung von ausgedruckten zu digital gespeicherten Dokumenten mit Volltextsuche ist keine Hexerei – aber profitables Geschäft.
Die Verwandlung von ausgedruckten zu digital gespeicherten Dokumenten mit Volltextsuche ist keine Hexerei – aber profitables Geschäft.

Papier ist geduldig. Das muss es auch sein, beispielsweise wenn man Papierquellen nach bestimmten Inhalten durchsucht und keine Volltextsuche darüber laufen lassen kann.

Hier hilft die OCR-Branche (Optical Character Recognition), die über Texterkennungs-Algorithmen digital gespeicherte Wörter und Sätze daraus zaubert. Das Blatt wird gescannt und die Abermillionen Pixel im Anschluss nach Mustern durchsucht. Steht hier Text? Ein Bild? Eine Tabelle?

Dann folgen die Inhalte. Algorithmisch angelegte Vergleiche mit einem Pool aus Buchstaben führen zu Zeichenketten. Die Unterscheidung zwischen Buchstaden und Wortseperator-Zeichen (Punkt, Komma, Leerzeichen et cetera) ermöglicht die Abtrennung einzelner Worte, ähnlich wie beim Metzger, der Salamischeiben produziert. Bei der folgenden Grundtextanalyse kommt die semantische Datenbank zum Zuge: Gibt es das Wort „plonets“ im Englischen? Die Mustererkennung will ein „o“ zwischen dem „l“ und dem „n“ erkannt haben. Die semantische Datenbank plädiert aber für ein „a“, denn das Wort „planets“ existiert und Neologismen (Neuwortschöpfungen) sind eher selten. Hier steckt viel Optimierungsarbeit dahinter, bei der jeder kleine Dreh am Algorithmus mit Unmengen von Testdaten und nächtelangen Testläufen überprüft werden muss. Texterkennung ist eine komplexe Angelegenheit, bei der die Verbesserung der Algorithmen wohl nie abgeschlossen sein wird. Der Faktor Geschwindigkeitsoptimierung spielt hier erst seit kurzem überhaupt eine Rolle.

OEM- und Box-Produkt

Zu den großen Playern in diesem Markt zählt die Firma ABBYY. Ihre Software wird im Rahmen von OEM-Geschäften beispielsweise in den Scannern der Scanner-Größe PFU (Fujitsu-Konzern) verwendet, aber auch andere Hersteller wie Epson und Plustek nutzen teilweise ABBYY-Software. Auch software-seitig gibt es OEM-Partnerschaften – mit den DMS-Herstellern Easy und Elo beispielsweise. Als Boxprodukt wird unter anderem die Finereader-Produktreihe über den Fachhandel verkauft. Gerade eben ging Version elf der Texterkennungs-Software auf den Markt.

OCR-Evolution

Bis zu dieser elften Version war es ein langer Weg. ABBYY-Chef Stoepetie blickt 15 Jahre in seine Anfangszeit in der Branche zurück. Damals musste der menschliche Nutzer seiner OCR-Software händisch markieren, wo denn nun Text ist. Die buntbebilderte Seite einer Zeitschrift hätte OCR-Software von damals schlichtweg überfordert, weil eingangs nicht zwischen Strukturen wie Text, Bild und Tabelle unterschieden wurde. Die Branche war damals vor allem auf Behörden ausgerichtet, die Buchstabenketten aus Formularfeldern elektronisch erfassen. Auch heute noch zählen Behörden zu den wichtigen Kunden. Inzwischen aber auch Geheimdienste, die sich beispielsweise für die arabische Spracherkennung in der neuen 11er-Version interessieren. Eingekauft wird auch in diesem Umfeld übrigens ganz regulär im Fachhandel. In Version 11 des Finereaders sind neben Arabisch auch Vietnamesisch und Turkmenisch dabei, allerdings muss die Texterkennung in bestimmten Sprachen von Version zu Version reifen, da besagtes Feilen am Algorithmus seine Zeit braucht.

ABBYY ist seit 22 Jahren dabei. Für eine Software-Firma ist das ein beachtliches Alter, aber dennoch nicht der direkte Grund, warum die Firmenbezeichnung aus dem Altmongolischen stammt. Demnach bedeutet ABBYY so viel wie „scharfes Auge“, hat aber auch den Vorteil, ganz vorne in Herstellerverzeichnissen aufzutauchen.

(ID:28946150)