SlideShare une entreprise Scribd logo
1  sur  17
Ansatz zur Fehlerkorrektur in OCR-Systemen
  Angewandte linguistische Datenverarbeitung, WS 2009 / 2010

                                                 Bilal Erkin
   Andrei Andrejewitsch Markov
    (†1922)

   Untersucht das Gedicht
    „Eugene Onegin“ von
    Alexander Puschkin

   Annahme: bestimmte
    Buchstabenpaare sind häufiger
    als andere
   Так думал молодой повеса,
    Летя в пыли на почтовых,
    Всевышней волею Зевеса
    Наследник всех своих родных.
    Друзья Людмилы и Руслана!
    С героем моего романа
    Без предисловий, сей же час
    Позвольте познакомить вас:
    Онегин, добрый мой приятель,
    Родился на брегах Невы,
    Где, может быть, родились вы
    Или блистали, мой читатель;
    Там некогда гулял и я:
    Но вреден север для меня.




Auszug aus dem Versroman           Buchstabenpaare mit ihren
von Alexander Puschkin             Übergangswahrscheinlichkeiten
   Eine Menge möglicher Zustände und eine
    Angabe der Übergangswahrscheinlichkeiten
    zwischen ihnen

   Wechsel zwischen den Zuständen immer
    zufällig  „stochastischer Prozess“
0,001

                             A
            0,081
                                         0,092
                    0,021        0,023

        B                   0,000                C
0,005                       0,000                    0,012
e       16,65%        er   re      4594
   n       10,36%        en   ne      3759
   i        8,14%        es   se      2820
   r        7,94%        de   ed      2644
   s        5,57%        ar   ra      2011
   t        5,43%        in   ni      1890
   a        5,15%        te   te      1885
   h        4,76%        ie   ei      1815
   d        4,21%        an   na      1808
   u        4,01%        al    la     1680
Monogrammhäufigkeiten   Digrammhäufigkeiten
ICH          1435    CHEN          617
 EIN          1366     SICH         357
 SCH          1277     ICHE         347
 UND          822     NDER          321
 UNG          810     NGEN          286
 CHT          734     SSEN          276
 VER          520      EICH         244
 AUS          433     ENDE          244
 ERS          385      SEIN         227

Trigrammstatistik    Tetragrammstatistik
   Authentifizierung von Texten
    ◦ Übergangsstatistik für einen Autor
    ◦ Übergangsstatistik für einen anderen Text
    ◦ Vergleich und Prüfung der Abweichung

   Korrekturmechanismus in OCR

    ◦ Beispiel: „gehen“ wird als „geheri“ erkannt
   Schritt 1: Kontrolle von „ri“ in geheri

    ◦ Auftrittswahrscheinlichkeit von „ri“:
      Insgesamt 4825 mal
      Davon 2198 mal nach der 5. Stelle im Wort




   Hypothese: „ri“ ist möglich
   Schritt 2: Kontrolle von „er“ in geheri

    ◦ Auftrittswahrscheinlichkeit von „er“:
      Insgesamt 42909 mal
      Davon 5088 an der 4. Stelle im Wort




   Hypothese: „er“ ist möglich
   Schritt 3: Kontrolle von „eri“ in geheri

    ◦ Auftrittswahrscheinlichkeit von „eri“:
      Tritt nicht auf!
      Kann trotzdem stimmen




   Hypothese: „eri“ ist zweifelhaft
   Schritt 4: Kontrolle von „heri“ in geheri

    ◦ Entfällt, da „eri“ nicht auftritt
   Ähnliche Orthografie zu „ri“
    ◦   rj
    ◦   n
    ◦   d
    ◦   h
    ◦   …



   Prüfung nach der wahrscheinlichsten
    Möglichkeit ( Monogrammstatistik)
   Kontrolle von „en“ in gehen

    ◦ Auftrittswahrscheinlichkeit von „en“:
      Insgesamt 46061 mal (vs. 42909 mal bei „er“)
      5599 mal an der 4. Stelle (vs. 5088 bei „er“)




   Hypothese: „en“ ist wahrscheinlicher als „eri“
   Visueller Hinweis auf den potenziellen Fehler

   Dialogfenster, mit Lösungsvorschlag „en“

   Option zur Selbstkorrigierung

   Durch Interaktion erweiterbar und trainierbar

   Andere: vvenn  wenn; zusamrnen  zusammen
   Themenbasierte Statistiken mit
    Übergangswahrscheinlichkeiten

   Mögliche Textsorten:
    ◦   Medizin
    ◦   Juristisch
    ◦   Mathematik
    ◦   Gedicht
    ◦   Politik
    ◦   Umgangssprache
Übergangswahrscheinlichkeiten

Contenu connexe

En vedette

Hadithterminologie
HadithterminologieHadithterminologie
HadithterminologieBilal Erkin
 
al-ʾĀmidī und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“
al-ʾĀmidī  und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“al-ʾĀmidī  und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“
al-ʾĀmidī und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“Bilal Erkin
 
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...Islamic Invitation
 
Mystik im Islam und Christentum
Mystik im Islam und ChristentumMystik im Islam und Christentum
Mystik im Islam und ChristentumBilal Erkin
 
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann StiftungMenschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann StiftungStresemann Stiftung
 
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor OrtPraktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor OrtBilal Erkin
 
Islam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und IntegrationIslam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und IntegrationBilal Erkin
 
Malaysia
MalaysiaMalaysia
MalaysiaJen S
 
Secrets of Surat Al-Kahf
Secrets of Surat Al-KahfSecrets of Surat Al-Kahf
Secrets of Surat Al-KahfMohammed Faris
 
Intro to islam power point presentation
Intro to islam power point presentationIntro to islam power point presentation
Intro to islam power point presentationmanishonlin
 
Presentation Islam
Presentation IslamPresentation Islam
Presentation IslamAzizjonZ
 

En vedette (13)

Hadithterminologie
HadithterminologieHadithterminologie
Hadithterminologie
 
al-ʾĀmidī und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“
al-ʾĀmidī  und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“al-ʾĀmidī  und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“
al-ʾĀmidī und sein Werk „al-muwāzana bayna šiʿr Abī Tammām wal-Buḫturī“
 
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...
 
Mystik im Islam und Christentum
Mystik im Islam und ChristentumMystik im Islam und Christentum
Mystik im Islam und Christentum
 
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann StiftungMenschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
 
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor OrtPraktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
 
Surat Al-Maun
Surat Al-MaunSurat Al-Maun
Surat Al-Maun
 
Islam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und IntegrationIslam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und Integration
 
Malaysia
MalaysiaMalaysia
Malaysia
 
Secrets of Surat Al-Kahf
Secrets of Surat Al-KahfSecrets of Surat Al-Kahf
Secrets of Surat Al-Kahf
 
Intro to islam power point presentation
Intro to islam power point presentationIntro to islam power point presentation
Intro to islam power point presentation
 
Spracherkennung
SpracherkennungSpracherkennung
Spracherkennung
 
Presentation Islam
Presentation IslamPresentation Islam
Presentation Islam
 

Übergangswahrscheinlichkeiten

  • 1. Ansatz zur Fehlerkorrektur in OCR-Systemen Angewandte linguistische Datenverarbeitung, WS 2009 / 2010 Bilal Erkin
  • 2. Andrei Andrejewitsch Markov (†1922)  Untersucht das Gedicht „Eugene Onegin“ von Alexander Puschkin  Annahme: bestimmte Buchstabenpaare sind häufiger als andere
  • 3. Так думал молодой повеса, Летя в пыли на почтовых, Всевышней волею Зевеса Наследник всех своих родных. Друзья Людмилы и Руслана! С героем моего романа Без предисловий, сей же час Позвольте познакомить вас: Онегин, добрый мой приятель, Родился на брегах Невы, Где, может быть, родились вы Или блистали, мой читатель; Там некогда гулял и я: Но вреден север для меня. Auszug aus dem Versroman Buchstabenpaare mit ihren von Alexander Puschkin Übergangswahrscheinlichkeiten
  • 4. Eine Menge möglicher Zustände und eine Angabe der Übergangswahrscheinlichkeiten zwischen ihnen  Wechsel zwischen den Zuständen immer zufällig  „stochastischer Prozess“
  • 5. 0,001 A 0,081 0,092 0,021 0,023 B 0,000 C 0,005 0,000 0,012
  • 6. e 16,65% er re 4594 n 10,36% en ne 3759 i 8,14% es se 2820 r 7,94% de ed 2644 s 5,57% ar ra 2011 t 5,43% in ni 1890 a 5,15% te te 1885 h 4,76% ie ei 1815 d 4,21% an na 1808 u 4,01% al la 1680 Monogrammhäufigkeiten Digrammhäufigkeiten
  • 7. ICH 1435 CHEN 617 EIN 1366 SICH 357 SCH 1277 ICHE 347 UND 822 NDER 321 UNG 810 NGEN 286 CHT 734 SSEN 276 VER 520 EICH 244 AUS 433 ENDE 244 ERS 385 SEIN 227 Trigrammstatistik Tetragrammstatistik
  • 8. Authentifizierung von Texten ◦ Übergangsstatistik für einen Autor ◦ Übergangsstatistik für einen anderen Text ◦ Vergleich und Prüfung der Abweichung  Korrekturmechanismus in OCR ◦ Beispiel: „gehen“ wird als „geheri“ erkannt
  • 9. Schritt 1: Kontrolle von „ri“ in geheri ◦ Auftrittswahrscheinlichkeit von „ri“:  Insgesamt 4825 mal  Davon 2198 mal nach der 5. Stelle im Wort  Hypothese: „ri“ ist möglich
  • 10. Schritt 2: Kontrolle von „er“ in geheri ◦ Auftrittswahrscheinlichkeit von „er“:  Insgesamt 42909 mal  Davon 5088 an der 4. Stelle im Wort  Hypothese: „er“ ist möglich
  • 11. Schritt 3: Kontrolle von „eri“ in geheri ◦ Auftrittswahrscheinlichkeit von „eri“:  Tritt nicht auf!  Kann trotzdem stimmen  Hypothese: „eri“ ist zweifelhaft
  • 12. Schritt 4: Kontrolle von „heri“ in geheri ◦ Entfällt, da „eri“ nicht auftritt
  • 13. Ähnliche Orthografie zu „ri“ ◦ rj ◦ n ◦ d ◦ h ◦ …  Prüfung nach der wahrscheinlichsten Möglichkeit ( Monogrammstatistik)
  • 14. Kontrolle von „en“ in gehen ◦ Auftrittswahrscheinlichkeit von „en“:  Insgesamt 46061 mal (vs. 42909 mal bei „er“)  5599 mal an der 4. Stelle (vs. 5088 bei „er“)  Hypothese: „en“ ist wahrscheinlicher als „eri“
  • 15. Visueller Hinweis auf den potenziellen Fehler  Dialogfenster, mit Lösungsvorschlag „en“  Option zur Selbstkorrigierung  Durch Interaktion erweiterbar und trainierbar  Andere: vvenn  wenn; zusamrnen  zusammen
  • 16. Themenbasierte Statistiken mit Übergangswahrscheinlichkeiten  Mögliche Textsorten: ◦ Medizin ◦ Juristisch ◦ Mathematik ◦ Gedicht ◦ Politik ◦ Umgangssprache