travail sur l'intégration du script amazighe le Tifinaghe dans un système de reconnaissance optique des caractères OpenSource. le moteur Tesseract de système Ocropus.
présentation au symposium SITACAM 2011 à Agadir.
Le Tifinaghe et les nouvelles technologies au service du document numérique a...
intégration du Tifinaghe dans un Ocr OpenSource
1. Intégration de l’amazighe dans un
OCR OpenSource
Ocropus comme modèle
Présenté par
Ait ouguengay Youssef
IRCAM - Rabat
2. PLAN
SITACAM’11 Agadir 06 & 07 Mai 20112
Introduction
Situation du travail
Ocropus : un système OCR modèle
Intégration du Tifinaghe
Discussions et perspectives
3. Introduction
SITACAM’11 Agadir 06 & 07 Mai 20113
Depuis 2002, le « Tifinaghe » est le caractère officiel
de l’écriture de l’amazighe au Maroc.
Plusieurs travaux d’aménagement :
Linguistiques (syntaxe, grammaire, etc)
Technologiques (normalisation Tifinaghe, TAL, OCR, etc)
Proposition d’un projet OCR pour l’amazighe depuis
2008 (conférence SITALA2008 INPT Rabat ).
4. Situation du Travail (1/3)
SITACAM’11 Agadir 06 & 07 Mai 20114
La majorité des projets OCR traitent les
problématiques de la reconnaissance optique des
alphabets latins.
Quelques travaux sur les script non latins:
Exemple : le thaï, le Bangali, le Korian, le chinois, l’arabe,
etc.
la majorité des projets open source mais de petite à
moyenne porté.
5. Situation du Travail (2/3)
SITACAM’11 Agadir 06 & 07 Mai 20115
Le cas du Tifinaghe :
Travaux de recherche sur l’OCR amazighe
Optimisation des méthodes de classification :
les réseaux de neurones
les automates à états finis
Etc.
Besoin d’un système complet d’OCR disponible comme référence
:
Tests des méthodes directement sur un OCR exploitable immédiatement,
Système ouvert, comparaisons des résultats, etc.
Travailler sur l’open source
6. Situation du Travail (3/3)
SITACAM’11 Agadir 06 & 07 Mai 20116
Schéma d’un OCR théorique :
7. Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 20117
Motivations :
Problèmes des systèmes existants
propriétaires et non multi-scripts.
Analyseur des documents non ouvert pour l’apprentissage.
Classificateurs adaptés par dictionnaires et orientés plutôt
vitesse.
Les entrées inattendu donnent des résultats catastrophiques.
8. Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 20118
Motivations :
Solutions :
Nouvelle génération de systèmes OCR.
S’approcher des modèles théoriques
Apprentissage automatique, traitement statistiques des langages
naturels
Améliorer l’analyse des documents
Améliorer la reconnaissance :
diversités de classificateurs, possibilités de choix et de
paramétrage.
Modélisation du langage.
9. Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 20119
Atouts et objectifs :
Multi-fonte, multi-script.
Support de l’Unicode (UTF-8)
Ingénierie logiciel à base de composants
Couplage minimale entre les composants
Outils en ligne de commande
Applications cibles :
Livre OCRisé (en cours )
Construction automatisé des bibliothèques numériques.
10. Ocropus : vers un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 201110
Multiples classificateurs
De base
Le plus proche voisin
Vx : l’ensemble des k modèles les plus proches et Vx
(i) : les modèles
appartenant à la classe i.
Réseaux de neurones
Où
: la valeur du nœud i de la couche k
: nombre du nœuds de la couche k
: biais du nœud i de la couche k
: le poids de la connexion entre les nœuds j de la couche k et le noeud i de la couche k-1.
x
i
xi VVxD
)1(
1
1
kn
i
k
i
k
ji
k
j
k
j xwbx
k
ix
)(kn
k
ib
k
jiw
11. Ocropus : un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 201112
Combinaisons de classificateurs
Mixage d’experts
12. Ocropus : un système OCR modèle
SITACAM’11 Agadir 06 & 07 Mai 201113
Classificateurs externes
Tesseract (optionnel à partir de la version V 0.4)
Prétraitement d’image
Analyse de rendu
Reconnaissance
Modélisation de langage
14. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201115
Base de données d’apprentissage :
images textes
Bouts de textes aléatoires tiré d’un corpus brut de l’IRCAM.
15. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201116
1746 caractères
16 fontes :
13 fontes classiques (serif et sans serif )
02 fontes gras
01 fonte manuscrite
Une base de données de :
1746 * 16 caractères
16. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201117
Fréquence des caractères Tifinaghe dans la base de données
d’apprentissage :
Recommandation :
Minimum 20 apparition pour les caractères les plus fréquents
5 à 10 pour les rares utilisés
17. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201118
Création de la BD d’entrainement :
Plusieurs fichiers de formats bien déterminés :
tessdata/ⵣ.unicharset
tessdata/ⵣ.unicharambigs
tessdata/ⵣ.inttemp
tessdata/ⵣ.pffmtable
tessdata/ⵣ.normproto
tessdata/ⵣ.punc-dawg
tessdata/ⵣ.word-dawg
tessdata/ⵣ.number-dawg
tessdata/ⵣ.freq-dawg
18. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201119
Création de la BD d’entrainement (technique de
fenêtrage ) :
Fichiers «Box»
Fichiers
D’apprentissag
e
19. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201120
Premiers résultats :
Tests effectués sur :
Caractères isolés
Textes avec fontes déjà appris
98 % de reconnaissance sans ambigüité
Quelques cas d’ambiguité pour des fontes particuliers :
ⴰ ‘’
1 ‘I
ⵔ 0
ⵓ :
20. Intégration du Tifinaghe dans OCRopus
SITACAM’11 Agadir 06 & 07 Mai 201121
Discussions
Quelques types de fontes « fantaisiques » causent des
problèmes d’ambiguités en classification.
les fichiers optionnels n’ont pas été intégrés dans la BD
d’entrainement (ⵣ.unicharambigs, dictionnaire, etc)
Taux de reconnaissance est bon mais nécessite encore
une amélioration.
Plus de tests avec des textes et fontes non appris sont
nécessaires.