1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Optische Zeichen Erkennung (OCR)
Einführung & Überblick
Michael Fuchs
Senior Product Marketing Manager
ABBYY Europe
fuchs@abbyy.com
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Agenda
ABBYY Technology im IMPACT Project
Wer ist ABBYY?
Firmenüberblick
Produktüberblick
Wie findet OCR Verarbeitung in der Praxis statt?
Optical Character Recognition - Grundlagen
Was ist OCR?
Wie wird OCR heute genutzt?
Wie funktioniert OCR?
OCR = Only Character Recognition?
IMPACT – die Optimierungsansätze
Fragen
IMPACT + ABBYY - OCR Einführung & Überblick 2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
IMPACT + ABBYY - OCR Einführung & Überblick 3
4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Improving Access to Text
Mission of IMPACT: It aims to significantly improve access to historical text and
to take away the barriers that stand in the way of the mass digitisation of the
European cultural heritage.
Partners:
Koninklijke Bibliotheek, The British Library, Österreichische Nationalbibliothek, Universität Innsbruck,
Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitätsbibliothek Göttingen
ABBYY, IBM Israel – Science and Technology Ltd, Instituut voor Nederlandse Lexicologie
National Centre for Scientific Research "Demokritos“,
Centrum für Informations- und Sprachverarbeitung, University of Munich
University of Bath, University of Salford, Bibliothèque Nationale de France
Web: www.impact-project.eu
IMPACT + ABBYY - OCR Einführung & Überblick 4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
ABBYY ist der OCR Technologie Lieferant für IMPACT Mitglieder
OCR Technology für IMPACT wird Mitgliedern als SDK gestellt, da
Nur Entwicklerwerkzeuge es erlauben, neue/andere Module zu verbinden,
z.B. komplexe externe Wörterbücher ( IMPACT: LMU)
Wissenschaftliche Forschung & Tests in eigenen Modulen durchgeführt werden
IMPACT + ABBYY - OCR Einführung & Überblick 5
6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
ABBYY verbessert u.a. die OCR Kerntechnologien zur Erkennung
alter Dokumente
Bild-Vorverarbeitung
Zeichenerkennung
Aktuell liegt der IMPACT Schwerpunkt auf Forschung und nicht im
Aufbau eines Produktivsystems ;o)
Verbesserungen der ABBYY Technologien aus dem IMPACT Projekt
werden in künftige Produkte integriert werden.
Wichtig: ABBYY FineReader 8/9/10 Professional (Box) bieten keine Fraktur OCR
Fraktur OCR gibt es nur in Recognition Server und FineReader Engine
IMPACT + ABBYY - OCR Einführung & Überblick 6
8. ABBYY weltweit
ABBYY Headquarters/ ABBYY Russia
ABBYY Europe UK
Fremont Moscow
ABBYY USA ABBYY Europe GmbH ABBYY Ukraine ABBYY Japan
Munich, Germany Kiev
ABBYY Taiwan
IMPACT + ABBYY - OCR Einführung & Überblick
9. Wer ist ABBYY?
Führender Hersteller von Technologie und Software für
Dokumenterkennung
OCR (Texterkennung)
ICR (Handschrifterkennung)
OBR (Barcodeerkennung)
OMR (Erkennung von Auswahlfeldern)
Data Capture
Formularverarbeitung (Fragebögen, Wahlscheine, etc.)
Semi-strukturierte Dokumente (Rechnungen, Lieferscheine Bestellungen, etc.)
Unstrukturierte Dokumente (Verträge, Briefe, etc.)
Linguistik / Wörterbücher
IMPACT + ABBYY - OCR Einführung & Überblick
10. ABBYY in West Europa
ABBYY Europe GmbH
Büro in München
Gegründet 2001 – heute mehr als 50 Beschäftigte
Betreut Partner und Kunden in westeuropäischen Ländern
Vertrieb & Marketing
Vertrieb
● Distribution, Entwicklung von Vertriebskanälen, Partner Management
Marketing
● Produkt Marketing, Channel Marketing, Outbound Marketing
ABBYY weltweit mehr als 800 Beschäftigte
IMPACT + ABBYY - OCR Einführung & Überblick
12. ABBYY Produkte
Mainline Distribution
“Box” Produkte:
ABBYY FineReader
OCR Anwendungen für Endanwender
ABBYY FotoReader
Texterkennung aus Dokumenten, die mit einer Digitalkamera
aufgenommen wurden
ABBYY PDF Transformer
PDF Konvertierung und Erzeugung für Endanwender
ABBYY Lingvo
Elektronische Wörterbücher, Russisch und europäische Sprachen
IMPACT + ABBYY - OCR Einführung & Überblick
13. ABBYY Produkte
Direktvertrieb und VAR Distribution
Technische Produktlinien:
ABBYY Recognition Server
Serverbasierte OCR
ABBYY FormReader und ABBYY FlexiCapture
Formularverarbeitung, Datenextrahierung aus semi- und
unstrukturierten Dokumenten
ABBYY FineReader Engine SDK
Software Development Kit um OCR Technologien in andere Systeme
und Anwendungen integrieren zu können
ABBYY Mobile OCR Engine
OCR für mobile Geräte, PDAs und Web Anwendungen
IMPACT + ABBYY - OCR Einführung & Überblick
14. ABBYY OCR Produkte – Anwendungssicht
Desktop/Workgroup Server/Backend SDK/Integration
Anwender gesteuerte Automatisierte Automatisierte
Verarbeitung, Verarbeitung, Verarbeitung,
OCR & Dokument
Fertige Anwendung Fertige Lösung Entwicklung nötig
Konvertierung
FineReader Recognition Server FineReader Engines
(Professional, Corporate, (Professional, Extended Edition) (Windows, Linux, Mac OS X,
Site Licence Edition) Free BSD, Embedded Systems)
PDF Transformer
Mobile OCR Engine
FotoReader (Android, Symbian, Linux,
Windows, Windows Mobile,
ScreenshotReader iPhone )
Anwender
Endanwender, Firmen, Entwickler,
sind:
Firmen Scandienstleister, Scandienstleister
Bibliotheken
IMPACT Research
IMPACT + ABBYY - OCR Einführung & Überblick
18. OCR Verarbeitungsschritte
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Korrektur von Bildfehlern, Verbesserung des optischen Eindrucks und
Vorbereitung für die eigentliche automatische OCR
Schritt 2. Dokument Analyse
Erkennen der verschiedenen Bereiche eines Dokuments, Layoutanalyse,
finden von Spalten, Tabellen, Bildern und Barcodes
Schritt 3. Zeichenerkennung
Automatische Erkennung der einzelnen Zeichen, Anwenden der Sprachdefinitionen,
Wörterbücher und anderer Optionen
Schritt 4. Prüfung & Korrektur durch Anwender (optional)
Manuelle Validierung/Korrektur unsicher erkannter Zeichen und Wörter
Schritt 5. Dokument Synthese und Export
Erzeugung der entsprechenden Ausgabeformate mit den gewählten Optionen
IMPACT + ABBYY - OCR Einführung & Überblick 18
19. OCR Verarbeitungsschritte
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Existierende Bildformate laden oder diese vom Scanner übernehmen
Trennung von Doppelseiten
Skalierung & Anpassung der Auflösung, z.B. bei Bildern mit sehr geringer
Auflösung
Rotation (um 90, 180, oder 270 Grad)
Bildtonumkehr
Bildbeschneidung (Cropping)
Erzeugung von Seitenvorschaubildern
Änderung der Text und Hintergrundfarben
IMPACT + ABBYY - OCR Einführung & Überblick 19
20. OCR Verarbeitungsschritte
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Kompensierung von Scanfehlern
Automatisches Geraderücken der
Dokumentseiten
Begradigung von Textzeilen
Kontrollierte Entfernung von
Staub und Rauschen
Achtung: Punkte bei: i, ä, ö, ü
IMPACT + ABBYY - OCR Einführung & Überblick 20
21. OCR Verarbeitungsschritte
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Intelligente Hintergrundfilterung
Adaptive Binarisierung
Eine einfache Binarisierung auf Basis des gesamten
Bildes kann keine guten OCR Ergebnisse liefern.
Problem: Mikrofilm Erstellung = Binarisierung
IMPACT + ABBYY - OCR Einführung & Überblick 21
22. OCR Verarbeitungsschritte
Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
Erste IMPACT Verbesserungen
Original State of the Art Neu
Kein Text der Rückseite
IMPACT + ABBYY - OCR Einführung & Überblick 22
23.
24. OCR Verarbeitungsschritte
Schritt 3. Zeichenerkennung
Nachdem die Zeilen gefunden wurden, werden verschiedene Classifier zur
Zeichenerkennung genutzt und die Ergebnisse bewertet
Raster Classifier Kontur Classifier
Struktur Classifier Classifier zur Unterscheidung von Merkmalen
IMPACT + ABBYY - OCR Einführung & Überblick 24
25. OCR Optimierung
Schritt 3. Zeichenerkennung – Trainieren neuer Symbole
Sogenanntes Pattern Training erlaubt es OCR Anwendungen,
spezielle Zeichen auf Pixelebene zu lernen
IMPACT + ABBYY - OCR Einführung & Überblick 25
26. OCR Optimierung
Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-Ebene
Anwenden der gewählten Sprach- und Wörterbuch-Einstellungen
Eigene Sprachen und Wörterbücher können hinzugefügt werden IMPACT
IMPACT + ABBYY - OCR Einführung & Überblick 26
27. OCR Verarbeitungsschritte
Schritt 4. Prüfung & Korrektur durch Anwender (optional)
Manueller Eingriff möglich:
Ergebnisse der Layout Analyse
● Textblöcke
● Bildblöcke
● Tabellenblöcke
Korrektur unsicher erkannter
Zeichen und Wörter, mit
Wörterbuch-Unterstützung
Erneute OCR Erkennung mit
anderen Spracheinstellungen
Recognition Server / FineReader Engine
erlauben den Export der Ergebnisse auch als XML Datei Impact
IMPACT + ABBYY - OCR Einführung & Überblick 27
28. OCR Verarbeitungsschritte
Schritt 5. Dokument Synthese und Export
Erzeugung der Ausgabeformate mit verschiedenen Optionen
TXT, Office Formate, PDF, etc.
Beginnend mit Version 9.0 nutzt ABBYY
ADRT = Adaptive Document
Recognition Technology. Diese hat das Ziel,
ein Dokument als Einheit zu verstehen.
V9: Erkennung von Kopf- und Fußzeilen
V10: Rekonstruktion von Inhaltsverzeichnissen
SDKs und Recognition Server erlauben
weitere Exportformate, z.B.:
● XML
● Internes FineReader Engine Format
IMPACT + ABBYY - OCR Einführung & Überblick 28
30. OCR – Only Character Recognition?
Nachbau des Originallayouts im neu erzeugten Dokument
Das erzeugte Dokument basiert auf dem Originallayout des gescannten Dokuments
Informationen aus der Layoutanalyse werden hier wiederverwendet
Wichtig auch für PDF mit Text unter dem Originalbild
Unterstützung verbreiteter Formate
ABBYY Produkte unterstützen die gängigsten Dokumentenformate, z.B.:
PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint und DBF
Unterstützung von Bildexportformten
BMP, PCX, JPEG, JPEG 2000, TIFF, PNG
Einhaltung von Standards
Unterstützung von kennwortgeschützen PDFs, Verschlüsselung von PDFs
Support von PDF/A zur Langzeitarchivierung, etc.
IMPACT + ABBYY - OCR Einführung & Überblick 30
31. IMPACT = „Schrittweise“ Optimierung
Schritt 1. Bildqualität
Problembereiche: Scans von Mikrofilm, Wölbungen, durchscheinende Zeichen
Optimierung sansatz : Bildvorverarbeitung, z.B: Binarisierung
Schritt 2. Dokument Analyse
Problembereiche: Layout alter Druckwerke, z.B. enger Spaltensatz bei alten Zeitungen,
Optimierung sansatz : Verbesserte Layoutanalyse
Schritt 3. Zeichenerkennung & Sprache
Problembereiche: Verwendete Schriftarten, alte Sprache (Grammatik und Rechtschreibung)
Optimierung sansatz : Verbesserte Erkennungsmuster, Erstellung spezieller Wörterbücher
Schritt 4. Prüfung & Korrektur
Problembereiche: Oft Serienfehler bei Frakturerkennung , Skalierung
Optimierung sansatz : Neue Ansätze zur Massenkorrektur
Schritt 5. Dokument Synthese, Export & Bewertung
Problembereiche: Inhalts-Klassifizierung , Metadaten Generierung, Sichere Formate
Optimierung sansatz : XML Analyse, XML, AltoXML, PDF/A, …
IMPACT + ABBYY - OCR Einführung & Überblick 31
32. Danke für Ihre Aufmerksamkeit
Fragen?
IMPACT + ABBYY - OCR Einführung & Überblick