intégration du Tifinaghe dans un Ocr OpenSource

Intégration de l’amazighe dans un
OCR OpenSource
Ocropus comme modèle
Présenté par
Ait ouguengay Youssef
IRCAM - Rabat

PLAN
SITACAM’11 Agadir 06 & 07 Mai 20112
 Introduction
 Situation du travail
 Ocropus : un système OCR modèle
 Intégration du Tifinaghe
 Discussions et perspectives

Introduction
 Depuis 2002, le « Tifinaghe » est le caractère officiel
de l’écriture de l’amazighe au Maroc.
 Plusieurs travaux d’aménagement :
 Linguistiques (syntaxe, grammaire, etc)
 Technologiques (normalisation Tifinaghe, TAL, OCR, etc)
 Proposition d’un projet OCR pour l’amazighe depuis
2008 (conférence SITALA2008 INPT Rabat ).

Situation du Travail (1/3)
 La majorité des projets OCR traitent les
problématiques de la reconnaissance optique des
alphabets latins.
 Quelques travaux sur les script non latins:
 Exemple : le thaï, le Bangali, le Korian, le chinois, l’arabe,
etc.
 la majorité des projets open source mais de petite à
moyenne porté.

 Le cas du Tifinaghe :
 Travaux de recherche sur l’OCR amazighe
 Optimisation des méthodes de classification :
 les réseaux de neurones
 les automates à états finis
 Etc.
 Besoin d’un système complet d’OCR disponible comme référence
:
 Tests des méthodes directement sur un OCR exploitable immédiatement,
 Système ouvert, comparaisons des résultats, etc.
Travailler sur l’open source

 Schéma d’un OCR théorique :

Ocropus : vers un système OCR modèle
 Motivations :
 Problèmes des systèmes existants
 propriétaires et non multi-scripts.
 Analyseur des documents non ouvert pour l’apprentissage.
 Classificateurs adaptés par dictionnaires et orientés plutôt
vitesse.
 Les entrées inattendu donnent des résultats catastrophiques.

 Motivations :
 Solutions :
 Nouvelle génération de systèmes OCR.
 S’approcher des modèles théoriques
 Apprentissage automatique, traitement statistiques des langages
naturels
 Améliorer l’analyse des documents
 Améliorer la reconnaissance :
 diversités de classificateurs, possibilités de choix et de
paramétrage.
 Modélisation du langage.

Atouts et objectifs :
 Multi-fonte, multi-script.
 Support de l’Unicode (UTF-8)
 Ingénierie logiciel à base de composants
 Couplage minimale entre les composants
 Outils en ligne de commande
 Applications cibles :
 Livre OCRisé (en cours )
 Construction automatisé des bibliothèques numériques.

 Multiples classificateurs
 De base
 Le plus proche voisin
Vx : l’ensemble des k modèles les plus proches et Vx
(i) : les modèles
appartenant à la classe i.
 Réseaux de neurones
Où
: la valeur du nœud i de la couche k
: nombre du nœuds de la couche k
: biais du nœud i de la couche k
: le poids de la connexion entre les nœuds j de la couche k et le noeud i de la couche k-1.
   
x
i
xi VVxD 





)1(
1
1
kn
i
k
i
k
ji
k
j
k
j xwbx
k
ix
)(kn
k
ib
k
jiw

Ocropus : un système OCR modèle
 Combinaisons de classificateurs
 Mixage d’experts

Ocropus : un système OCR modèle
 Classificateurs externes
 Tesseract (optionnel à partir de la version V 0.4)
Prétraitement d’image
Analyse de rendu
Reconnaissance
Modélisation de langage

Intégration du Tifinaghe dans OCRopus
 L’Ensemble ciblé réduit aux :
 33 caractères marocains,
 Les Ponctuations usuels et chiffres arabes.
- : ’ 2 ⴰ ⵃ ⵔ ⵣ
! ? + ² ⴱ ⵄ ⵕ ⵥ
# @ < 3 ⴳ ⵅ ⵖ
& [ = 4 ⴳⵯ ⵇ ⵙ
( ] > 5 ⴷ ⵉ ⵚ
) _ « 6 ⴹ ⵊ ⵛ
* { » 7 ⴼ ⵍ ⵜ
, } § 8 ⴽ ⵎ ⵟ
. ~ 0 9 ⴽⵯ ⵏ ⵡ
/ ‘ 1 ⵀ ⵓ ⵢ

 Base de données d’apprentissage :
 images textes
 Bouts de textes aléatoires tiré d’un corpus brut de l’IRCAM.

 1746 caractères
 16 fontes :
 13 fontes classiques (serif et sans serif )
 02 fontes gras
 01 fonte manuscrite
 Une base de données de :
1746 * 16 caractères

 Fréquence des caractères Tifinaghe dans la base de données
d’apprentissage :
 Recommandation :
 Minimum 20 apparition pour les caractères les plus fréquents
 5 à 10 pour les rares utilisés

 Création de la BD d’entrainement :
 Plusieurs fichiers de formats bien déterminés :
 tessdata/ⵣ.unicharset
 tessdata/ⵣ.unicharambigs
 tessdata/ⵣ.inttemp
 tessdata/ⵣ.pffmtable
 tessdata/ⵣ.normproto
 tessdata/ⵣ.punc-dawg
 tessdata/ⵣ.word-dawg
 tessdata/ⵣ.number-dawg
 tessdata/ⵣ.freq-dawg

 Création de la BD d’entrainement (technique de
fenêtrage ) :
Fichiers «Box»
Fichiers
D’apprentissag
e

 Premiers résultats :
 Tests effectués sur :
 Caractères isolés
 Textes avec fontes déjà appris
 98 % de reconnaissance sans ambigüité
 Quelques cas d’ambiguité pour des fontes particuliers :
 ⴰ  ‘’
 1  ‘I
 ⵔ 0
 ⵓ  :

 Discussions
 Quelques types de fontes « fantaisiques » causent des
problèmes d’ambiguités en classification.
 les fichiers optionnels n’ont pas été intégrés dans la BD
d’entrainement (ⵣ.unicharambigs, dictionnaire, etc)
 Taux de reconnaissance est bon mais nécessite encore
une amélioration.
 Plus de tests avec des textes et fontes non appris sont
nécessaires.

intégration du Tifinaghe dans un Ocr OpenSource

Recommandé

Recommandé

Contenu connexe

Similaire à intégration du Tifinaghe dans un Ocr OpenSource

Similaire à intégration du Tifinaghe dans un Ocr OpenSource (20)

Plus de Youssef Ouguengay

Plus de Youssef Ouguengay (8)

intégration du Tifinaghe dans un Ocr OpenSource