1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR-Software für historische Dokumente
Gerd Zechmeister (Österr. Nationalbibliothek)
11.10.2011 DemoDay BSB
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11.10.2011 DemoDay BSB 2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Was ist OCR?
Optische Zeichenerkennung ist die mechanische oder elektronische
Übersetzung von - üblicherweise von einem Scanner erfassten - Abbildern
von hand- oder maschingeschriebenem bzw. gedrucktem Text in
maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar)
11.10.2011 DemoDay BSB 3
4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum OCR?
Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von
Dokumenten in Suchsystemen
Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate)
Schriftart-Erkennung
„Trainieren“ von OCR Software
11.10.2011 DemoDay BSB 4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR Verarbeitungsschritte
Bildvorverarbeitung
– Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken,
Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitung
für die OCR (Binarisierung)
integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen
Layout-Analyse und Segmentierung
– Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und
Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.)
Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je
nach Ausgabeformat in den Ergebnissen mitgeliefert werden
Mustererkennung
– Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von
Klassifikatoren (= Zeichenmuster)
– Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)
11.10.2011 DemoDay BSB 5
6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT & ABBYY
ABBYY ist der OCR-Technologie-Lieferant für IMPACT
Die IMPACT Partner arbeiten mit der FineReader Engine (SDK)
ABBYY verbessert Features im Rahmen von IMPACT, darunter:
– Bildvorverarbeitung
– Zeichenerkennung
– Segmentierung
werden in zukünftige Produkte integriert
IMPACT ermöglicht Forschung, liefert kein Produktivsystem
11.10.2011 DemoDay BSB 6
7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Binarisierung
8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Adaptive Binarisierung
Original-Scan
alte
Binarisierung
neue
Binarisierung
9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Binarisierung
Original Stand der Technik IMPACT
9
10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Segmentierung
Blöcke/Regionen Worte Glyphen/Zeichen
11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 1
Pre-IMPACT FR Engine 9 FR Engine 10
Ein Teil wurde fälschlicherweise als Grafikblock interpretiert
11
12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 2
Pre-IMPACT FR Engine 9 FR Engine 10
Fehler in der Zuordnung von Elementen wurden behoben
12
13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 3
Pre-IMPACT FR Engine 9 FR Engine 10
In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert
13
14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Fraktur-Erkennung
15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Sprachen und Wörterbücher
Ziel: Schnittstelle zur Integration externer Wörterbücher in die
Engine
2008 - 2009:
• Betaversion der Schnittstelle
• Selbe Prozessqualität möglich wie mit internen Wörterbüchern
2010 - 2011:
• Schnittstelle “stabilisieren” (weitere
Funktionstests notwendig)
• Partner einschulen wie die Schnittstelle
zu benutzen ist
• Unterstützung für alle verfügbaren
Sprachen und Zeiträume
15
16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Eigennamenerkennung
Erkennen von Personen, Orten und Körperschaften in Volltexten
Arbeitsschritte
1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen,
Konvertierung von Normdateien in geeignete Formate)
2. Indexieren von Volltexten
3. Suchschnittstelle generieren
IMPACT Retrieval Demonstrator
11.10.2011 DemoDay BSB 16
17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
ALTO: neues natives Exportformat
Verfügbar seit FineReader Engine 10 R2
Unterstützt aktuelles Schema: ALTO v. 2.0
Koordinaten auf Linienebene verfügbar
18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ergebnisvergleich
Prozess 1
1. Geometrische Korrektur
2. Rahmenentfernung
3. ABBYY FineReader 10 Binarisation Service
4. ABBYY FineReader 10 OCR Service
Prozess 2
1. ABBYY FineReader 10 OCR Service
11.10.2011 DemoDay BSB 18
19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Prozess 1 (Bildvorverarbeitung + FR 9)
Prozess 2 (FR 9)
11.10.2011 DemoDay BSB 19
20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank … Fragen?
11.10.2011 DemoDay BSB 20